Guardrails 节点#
使用 Guardrails 节点对文本实施安全性、安全性和内容策略管控。您可以在将用户输入发送给 AI 模型之前用其进行验证,也可在工作流中使用 AI 模型输出之前用其进行检查。
基于 LLM 的护栏功能需连接聊天模型
当使用检查文本违规操作且涉及基于 LLM 的护栏时,此节点需将聊天模型节点连接至其 Model 输 入端口。多数护栏检查(如越狱检测、NSFW 和主题对齐)均基于 LLM,需通过此连接评估输入文本。
节点参数#
通过以下参数配置 Guardrails 节点。
操作模式#
定义节点行为的运行模式。
- 检查文本违规:提供完整护栏功能。任何违规都会将条目发送至 Fail 分支
- 清理文本:提供可检测 URL、正则表达式、密钥或个人身份信息(PII,如电话号码和信用卡号)的护栏子集。节点会将检测到的违规内容替换为占位符
待检查文本#
护栏系统评估的文本内容。通常通过表达式从前序节点映射而来,例如用户查询文本或 AI 模型响应内容。
护栏规则#
选择要应用于待检查文本的一条或多条护栏规则。从列表添加护栏后,其特定 配置选项将显示在下方面板。
- 关键词:检查输入文本是否包含指定关键词
- 关键词:逗号分隔的禁用词列表
- 越狱检测:检测绕过 AI 安全措施或利用模型的行为
- 自定义提示:(布尔值)开启后显示越狱检测模型的默认提示文本输入框,可修改提示词微调护栏
- 阈值:0.0 至 1.0 之间的数值,代表 AI 模型将输入标记为越狱尝试所需的置信度,数值越高越严格
- NSFW:检测生成不适宜工作场所(NSFW)内容的尝试
- 自定义提示:(布尔值)开启后显示 NSFW 检测模型的默认提示文本输入框
- 阈值:0.0 至 1.0 之间的数值,代表将内容标记为 NSFW 所需的置信度
- PII:检测文本中的个人身份信息
- 类型:选择要扫描的 PII 实体类型:
- 全部:扫描所有可用实体类型
- 选定项:从列表中选择特定实体
- 实体:(类型为选定项时显示)可多选的 PII 类型列表(例如
CREDIT_CARD、EMAIL_ADDRESS、PHONE_NUMBER和US_SSN)
- 类型:选择要扫描的 PII 实体类型:
- 密钥检测:检测文本中是否存在密钥或 API 凭证
- 宽松度:标记密钥时的检测严格程度:
- 严格
- 宽松
- 均衡
- 宽松度:标记密钥时的检测严格程度:
- 主题对齐:确保对话保持在预定义范围或主题内(亦称“业务范围”)
- 提示:定义允许主题的预设提示,护栏会检查待检查文本是否与此提示保持一致
- 阈值:0.0 至 1.0 之间的数值,代表将输入标记为偏离主题所需的置信度
- URL 管理:处理在输入文本中发现的 URL。默认将所有 URL 视为违规,除非在允许的 URL 列表中特别指定
- 允许的 URL 列表:(可选)逗号分隔的允许 URL 列表
- 允许的协议:选择允许的 URL 协议类型(如
https、http、ftp和mailto) - 阻断用户信息:(布尔值)开启后,节点将阻断包含用户凭证的 URL(如
user:[email protected])以防止凭证注入 - 允许子域名:(布尔值)开启后,节点自动允许允许的 URL 列表中任何 URL 的子域名(例如若列表中包含
example.com,则sub.example.com将被允许)
- 自定义护栏:定义基于 LLM 的自定义护栏
- 名称:自定义护栏的描述性名称(如“检查粗鲁用语”)
- 提示:指示 AI 模型检查内容的提示词
- 阈值:0.0 至 1.0 之间的数值,代表将输入标记为违规所需的置信度
- 自定义正则表达式:定义自定义正则表达式模式
- 名称:自定义模式的名称,在清理文本模式下节点会使用此名称作 为占位符
- 正则表达式:自定义的正则表达式模式
自定义系统消息#
开启后显示文本输入框,其中包含护栏用于根据模式强制执行阈值和 JSON 输出的系统消息。修改此消息可调整全局护栏行为。