基于指标的评估#
适用于Pro版和企业版套餐
基于指标的评估功能适用于Pro版和企业版套餐。注册社区版和Starter版用户也可在单一工作流中使用此功能。
什么是基于指标的评估?#
当工作流准备部署时,通常需要比开发阶段使用更多测试用例进行验证。
例如,当生产环境执行出现边界案例时,需要将其添加到测试数据集中以确保全面覆盖。
对于基于生产数据构建的大型数据集,仅通过人工检查结果难以准确评估性能。此时必须进行量化测量。基于指标的评估可为每次测试运行分配一个或多个分数,便于与历史运行结果对比。单个分数会进行汇总计算,以衡量整个数据集的性能表现。
该功能支持运行评估计算指标,跟踪指标在不同运行间的变化趋势,并深入分析变化原因。
指标可以是确定性函数(例如两个字符串间的距离),也可通过AI计算。指标通常涉及检查输出与参考输出(又称真实值)的差异,因此数据集中必须包含参考输出。但部分评估无需参考输出(例如检测文本情感或毒性)。
运作原理#
Google Sheets凭证配置
评估使用数据表或Google Sheets存储测试数据集。若使用Google Sheets作为数据源,需配置Google Sheets凭证。
- 设置轻量级评估
- 为工作流添加指标
- 运行评估并查看结果
1. 设置轻量级评估#
按照设置指南创建数据集并将其连接到工作流,同时将输出回写至数据集。
后续步骤沿用轻量级评估文档中的工单分类工作流示例:

2. 为工作流添加指标#
指标是用于量化工作流输出质量的维度,通常通过对比实际输出与参考输出来实现。虽然有时可直接通过代码计算,但普遍采用AI方式进行指标测算。在n8n中,指标始终为数值类型。
需要在工作流生成输出后添加指标计算逻辑。可将指标所需的参考输出作为数据集列添加,确保通过评估触发器输出至工作流。
通过设置指标操作可计算:
- 正确性(基于AI):判断答案含义是否与提供的参考答案一致。采用1-5分制,5分为最优
- 帮助性(基于AI):判断回复是否解答给定查询。采用1-5分制,5分为最优
- 字符串相似度:通过字符级编辑距离衡量答案与参考答案的接近程度。返回0-1之间的分数
- 分类匹配:检测答案是否与参考答案完 全一致。匹配时返回1,否则返回0
- 工具使用:检测执行过程是否使用工具。返回0-1之间的分数
支持添加自定义指标:在工作流中完成指标计算后,映射至评估节点即可。使用设置指标操作并选择自定义指标作为指标类型,即可设置要返回的指标名称和数值。
应用案例:
- RAG文档相关性:在使用向量数据库时,检测检索到的文档与问题的关联程度
指标计算可能增加延迟和成本,建议仅在运行评估时执行,生产执行时可跳过。可通过在'检查是否评估中'操作后放置指标逻辑来实现。

3. 运行评估并查看结果#
切换至工作流的评估标签页,点击运行评估按钮。评估完成后将显示各指标的汇总分数。
点击测试运行行可查看每个测试用例的详细结果。点击单个测试用例将在新标签页中打开对应的执行记录。