概述#

什么是评估？#

评估是确保AI工作流可靠性的关键技术。它决定了项目是停留在不稳定的概念验证阶段，还是能成为稳健的生产工作流。无论是在构建阶段还是部署到生产环境后，评估都至关重要。

评估的基础是通过工作流运行测试数据集。该数据集包含多个测试用例，每个测试用例都包含工作流的样本输入，通常还包含预期输出。

评估能帮助您：

以下视频详解评估的定义、价值与运作机制：

AI模型与代码存在本质差异。代码具有确定性且可推导分析，而大语言模型作为黑箱系统则难以直接推演。必须通过输入数据并观察输出来量化评估模型表现。

只有当模型在充分反映生产环境所有边界案例的多样化输入上经过验证后，才能建立对其可靠性的信心。

构建清晰完整的数据集具有挑战性。在初期构建阶段，通常只需生成少量示例即可通过视觉比对结果感知工作流质量，无需建立正式指标，就足以将工作流迭代至可发布状态（或完成概念验证）。

工作流部署后，可从生产执行中构建更庞大、更具代表性的数据集。发现缺陷时，可将触发问题的输入加入数据集。修复问题时，必须重新运行完整数据集进行回归测试，确保修复未引发其他问题。

由于测试用例过多无法逐项检查，评估通过指标（代表特定特征的数值）量化输出质量，同时支持跨版本质量追踪。