跳到主要内容

Guardrails 节点#

使用 Guardrails 节点对文本实施安全性、安全性和内容策略管控。您可以在将用户输入发送给 AI 模型之前用其进行验证，也可在工作流中使用 AI 模型输出之前用其进行检查。

基于 LLM 的护栏功能需连接聊天模型

当使用检查文本违规操作且涉及基于 LLM 的护栏时，此节点需将聊天模型节点连接至其 Model 输入端口。多数护栏检查（如越狱检测、NSFW 和主题对齐）均基于 LLM，需通过此连接评估输入文本。

节点参数#

通过以下参数配置 Guardrails 节点。

操作模式#

定义节点行为的运行模式。

检查文本违规：提供完整护栏功能。任何违规都会将条目发送至 Fail 分支
清理文本：提供可检测 URL、正则表达式、密钥或个人身份信息（PII，如电话号码和信用卡号）的护栏子集。节点会将检测到的违规内容替换为占位符

待检查文本#

护栏系统评估的文本内容。通常通过表达式从前序节点映射而来，例如用户查询文本或 AI 模型响应内容。

护栏规则#

选择要应用于待检查文本的一条或多条护栏规则。从列表添加护栏后，其特定配置选项将显示在下方面板。

关键词：检查输入文本是否包含指定关键词
- 关键词：逗号分隔的禁用词列表
越狱检测：检测绕过 AI 安全措施或利用模型的行为
- 自定义提示：（布尔值）开启后显示越狱检测模型的默认提示文本输入框，可修改提示词微调护栏
- 阈值：0.0 至 1.0 之间的数值，代表 AI 模型将输入标记为越狱尝试所需的置信度，数值越高越严格
NSFW：检测生成不适宜工作场所（NSFW）内容的尝试
- 自定义提示：（布尔值）开启后显示 NSFW 检测模型的默认提示文本输入框
- 阈值：0.0 至 1.0 之间的数值，代表将内容标记为 NSFW 所需的置信度
PII：检测文本中的个人身份信息
- 类型：选择要扫描的 PII 实体类型：
  - 全部：扫描所有可用实体类型
  - 选定项：从列表中选择特定实体
- 实体：（类型为选定项时显示）可多选的 PII 类型列表（例如 CREDIT_CARD、EMAIL_ADDRESS、PHONE_NUMBER 和 US_SSN）
密钥检测：检测文本中是否存在密钥或 API 凭证
- 宽松度：标记密钥时的检测严格程度：
  - 严格
  - 宽松
  - 均衡
主题对齐：确保对话保持在预定义范围或主题内（亦称“业务范围”）
- 提示：定义允许主题的预设提示，护栏会检查待检查文本是否与此提示保持一致
- 阈值：0.0 至 1.0 之间的数值，代表将输入标记为偏离主题所需的置信度
URL 管理：处理在输入文本中发现的 URL。默认将所有 URL 视为违规，除非在允许的 URL 列表中特别指定
- 允许的 URL 列表：（可选）逗号分隔的允许 URL 列表
- 允许的协议：选择允许的 URL 协议类型（如 https、http、ftp 和 mailto）
- 阻断用户信息：（布尔值）开启后，节点将阻断包含用户凭证的 URL（如 user:[email protected]）以防止凭证注入
- 允许子域名：（布尔值）开启后，节点自动允许允许的 URL 列表中任何 URL 的子域名（例如若列表中包含 example.com，则 sub.example.com 将被允许）
自定义护栏：定义基于 LLM 的自定义护栏
- 名称：自定义护栏的描述性名称（如“检查粗鲁用语”）
- 提示：指示 AI 模型检查内容的提示词
- 阈值：0.0 至 1.0 之间的数值，代表将输入标记为违规所需的置信度
自定义正则表达式：定义自定义正则表达式模式
- 名称：自定义模式的名称，在清理文本模式下节点会使用此名称作为占位符
- 正则表达式：自定义的正则表达式模式

自定义系统消息#

开启后显示文本输入框，其中包含护栏用于根据模式强制执行阈值和 JSON 输出的系统消息。修改此消息可调整全局护栏行为。

节点参数#