轻量级评估#
适用于注册的社区版用户和付费计划 轻量级评估(Light evaluations)对已注册的社区版用户以及所有付费计划用户开放。
什么是轻量级评估?#
在构建工作流时,你通常希望使用少量示例对其进行测试,以了解其表现并进行优化。在工作流开发的这一阶段,逐个检查每个示例的输出通常已经足够。此时,设置更正式的评分或指标系统所带来的收益尚不足以证明投入是值得的。
轻量级评估允许你将测试数据集中的示例逐一通过你的工作流运行,并将输出结果写回数据集中。然后你可以并排查看这些输出,并与预期输出(如果有的话)进行视觉对比。
工作原理#
Google Sheets 凭据
评估功能使用数据表或 Google Sheets 来存储测试数据集。若要使用 Google Sheets 作为数据源,请配置一个 Google Sheets 凭据。
轻量级评估在工作流的“编辑器”(Editor)标签页中进行,但你可以在“评估”(Evaluations)标签页中找到相关设置说明。
操作步骤:
- 创建一个数据集
- 将数据集连接到工作流
- 将工作流输出写回数据集
- 运行评估
以下说明将使用一个示例 AI 工作流:该工作流为 incoming 支持工单分配类别和优先级。
1. 创建数据集#
创建一个数据表或 Google Sheet,其中包含若干条用于测试工作流的示例。你的数据集应包含以下列:
- 工作流输入(workflow input)
- (可选)预期或正确的输出(expected/correct workflow output)
- 实际输出(actual output)
将实际输出列留空,因为你将在评估过程中填写这些列。 支持工单分类工作流的示例数据集 一个用于支持工单分类工作流的 示例数据集。
2. 将数据集连接到你的工作流
插入评估触发器以导入你的数据集
每次 评估触发器 运行时,它都会输出一个代表数据集中某一行的单项(single item)。
点击评估触发器左侧的“评估全部”(Evaluate all)按钮,将会按顺序多次运行你的工作流,每行数据对应一次执行。这是评估触发器的特殊行为。
在连接触发器时,你通常只想让它运行一次。你可以通过以下任一方式实现:
- 将触发器的“最大处理行数”(Max rows to process)设置为 1
- 点击触发器上的“执行节点”(Execute node)按钮(而不是“评估全部”按钮)
将触发器连接到你的工作流
现在你可以将评估触发器连接到工作流的其余部分,并引用其输出的数据。至少你需要在后续工作流中使用数据集的输入列。
如果你的工作流中有多个触发器,则需要将它们的分支 合并在一起。
连接评估触发器 已添加并连接好评估触发器的支持工单分类工作流。
3. 将工作流输出写回数据集
要在评估运行时填充数据集的输出列,请执行以下操作:
- 插入 评估节点 的“设置输出”(Set outputs)操作
- 将该节点连接到工作流中已生成待评估输出的位置之后
- 在节点参数中,将工作流的输出映射到正确的数据集列
连接“设置输出”节点 已添加并连接好“设置输出(set outputs)”节点的支持工单分类工作流。
4. 运行评估
点击评估触发器左侧的 执行工作流(Execute workflow) 按钮。工作流将针对数据集中的每一行执行一次,共执行多次:
你可以在数据表或 Google Sheet 中查看每次执行的输出结果,如有需要,也可通过工作流的“执行记录(executions)”标签页查看详细的执行信息。
当你的数据集逐渐增大、超出少量示例后,建议使用基于指标的评估(metric-based evaluation) 来获得性能的量化视图。另请参阅提示与常见问题。