基于指标的评估#

适用于Pro版和企业版套餐

基于指标的评估功能适用于Pro版和企业版套餐。注册社区版和Starter版用户也可在单一工作流中使用此功能。

当工作流准备部署时，通常需要比开发阶段使用更多测试用例进行验证。

例如，当生产环境执行出现边界案例时，需要将其添加到测试数据集中以确保全面覆盖。

对于基于生产数据构建的大型数据集，仅通过人工检查结果难以准确评估性能。此时必须进行量化测量。基于指标的评估可为每次测试运行分配一个或多个分数，便于与历史运行结果对比。单个分数会进行汇总计算，以衡量整个数据集的性能表现。

该功能支持运行评估计算指标，跟踪指标在不同运行间的变化趋势，并深入分析变化原因。

指标可以是确定性函数（例如两个字符串间的距离），也可通过AI计算。指标通常涉及检查输出与参考输出（又称真实值）的差异，因此数据集中必须包含参考输出。但部分评估无需参考输出（例如检测文本情感或毒性）。

运作原理#

Google Sheets凭证配置

评估使用数据表或Google Sheets存储测试数据集。若使用Google Sheets作为数据源，需配置Google Sheets凭证。

按照设置指南创建数据集并将其连接到工作流，同时将输出回写至数据集。

后续步骤沿用轻量级评估文档中的工单分类工作流示例：

轻量级评估工作流

指标是用于量化工作流输出质量的维度，通常通过对比实际输出与参考输出来实现。虽然有时可直接通过代码计算，但普遍采用AI方式进行指标测算。在n8n中，指标始终为数值类型。

需要在工作流生成输出后添加指标计算逻辑。可将指标所需的参考输出作为数据集列添加，确保通过评估触发器输出至工作流。

通过设置指标操作可计算：

支持添加自定义指标：在工作流中完成指标计算后，映射至评估节点即可。使用设置指标操作并选择自定义指标作为指标类型，即可设置要返回的指标名称和数值。

应用案例：

指标计算可能增加延迟和成本，建议仅在运行评估时执行，生产执行时可跳过。可通过在'检查是否评估中'操作后放置指标逻辑来实现。

检查评估状态节点

切换至工作流的评估标签页，点击运行评估按钮。评估完成后将显示各指标的汇总分数。

点击测试运行行可查看每个测试用例的详细结果。点击单个测试用例将在新标签页中打开对应的执行记录。