跳到主要内容

Guardrails 节点#

使用 Guardrails 节点对文本实施安全性、安全性和内容策略管控。您可以在将用户输入发送给 AI 模型之前用其进行验证,也可在工作流中使用 AI 模型输出之前用其进行检查。

基于 LLM 的护栏功能需连接聊天模型

当使用检查文本违规操作且涉及基于 LLM 的护栏时,此节点需将聊天模型节点连接至其 Model 输入端口。多数护栏检查(如越狱检测、NSFW 和主题对齐)均基于 LLM,需通过此连接评估输入文本。

节点参数#

通过以下参数配置 Guardrails 节点。

操作模式#

定义节点行为的运行模式。

  • 检查文本违规:提供完整护栏功能。任何违规都会将条目发送至 Fail 分支
  • 清理文本:提供可检测 URL、正则表达式、密钥或个人身份信息(PII,如电话号码和信用卡号)的护栏子集。节点会将检测到的违规内容替换为占位符

待检查文本#

护栏系统评估的文本内容。通常通过表达式从前序节点映射而来,例如用户查询文本或 AI 模型响应内容。

护栏规则#

选择要应用于待检查文本的一条或多条护栏规则。从列表添加护栏后,其特定配置选项将显示在下方面板。

  • 关键词:检查输入文本是否包含指定关键词
    • 关键词:逗号分隔的禁用词列表
  • 越狱检测:检测绕过 AI 安全措施或利用模型的行为
    • 自定义提示:(布尔值)开启后显示越狱检测模型的默认提示文本输入框,可修改提示词微调护栏
    • 阈值:0.0 至 1.0 之间的数值,代表 AI 模型将输入标记为越狱尝试所需的置信度,数值越高越严格
  • NSFW:检测生成不适宜工作场所(NSFW)内容的尝试
    • 自定义提示:(布尔值)开启后显示 NSFW 检测模型的默认提示文本输入框
    • 阈值:0.0 至 1.0 之间的数值,代表将内容标记为 NSFW 所需的置信度
  • PII:检测文本中的个人身份信息
    • 类型:选择要扫描的 PII 实体类型:
      • 全部:扫描所有可用实体类型
      • 选定项:从列表中选择特定实体
    • 实体:(类型选定项时显示)可多选的 PII 类型列表(例如 CREDIT_CARDEMAIL_ADDRESSPHONE_NUMBERUS_SSN
  • 密钥检测:检测文本中是否存在密钥或 API 凭证
    • 宽松度:标记密钥时的检测严格程度:
      • 严格
      • 宽松
      • 均衡
  • 主题对齐:确保对话保持在预定义范围或主题内(亦称“业务范围”)
    • 提示:定义允许主题的预设提示,护栏会检查待检查文本是否与此提示保持一致
    • 阈值:0.0 至 1.0 之间的数值,代表将输入标记为偏离主题所需的置信度
  • URL 管理:处理在输入文本中发现的 URL。默认将所有 URL 视为违规,除非在允许的 URL 列表中特别指定
    • 允许的 URL 列表:(可选)逗号分隔的允许 URL 列表
    • 允许的协议:选择允许的 URL 协议类型(如 httpshttpftpmailto
    • 阻断用户信息:(布尔值)开启后,节点将阻断包含用户凭证的 URL(如 user:[email protected])以防止凭证注入
    • 允许子域名:(布尔值)开启后,节点自动允许允许的 URL 列表中任何 URL 的子域名(例如若列表中包含 example.com,则 sub.example.com 将被允许)
  • 自定义护栏:定义基于 LLM 的自定义护栏
    • 名称:自定义护栏的描述性名称(如“检查粗鲁用语”)
    • 提示:指示 AI 模型检查内容的提示词
    • 阈值:0.0 至 1.0 之间的数值,代表将输入标记为违规所需的置信度
  • 自定义正则表达式:定义自定义正则表达式模式
    • 名称:自定义模式的名称,在清理文本模式下节点会使用此名称作为占位符
    • 正则表达式:自定义的正则表达式模式

自定义系统消息#

开启后显示文本输入框,其中包含护栏用于根据模式强制执行阈值和 JSON 输出的系统消息。修改此消息可调整全局护栏行为。