8. Agent 评测(Beta)


Agent 评测功能允许用户对已创建的 AI 应用进行系统化的质量测试,验证其回答的准确性和可靠性。

使用方法

image-20260408192755499

在工作台左侧导航中点击「Agent 评测(Beta)」,点击「创建任务」。

image-20260408192912694

输入任务名称,然后选择评测模型。

image-20260408193129215

选择需要评测的应用。

image-20260408193331942

下载评测文件的模板,填写内容后上传评测文件,然后点击「开始评测」。

image-20260408193500596

等待评测完成后点击「详情」查看结果。

评测建议

  • 评测数据集应覆盖应用的主要使用场景和边界情况。
  • 建议包含至少 50 条以上的测试用例,确保评测结果具有统计意义。
  • 定期对更新后的知识库和工作流重新进行评测,监控质量变化。

评论

0
还没有评论,来写第一条吧