怎么判断你的 Agent 是不是「真的好用」?聊聊 Agent 评测
-
判断一个 Agent 好不好用,不能只看 demo。Demo 里跑通一次不难,难的是连续跑 100 次还能稳定。
我会看这几个指标:
- 成功率:同类任务跑多次,多少次能完成
- 返工率:完成后还需要人改多少
- 可解释性:失败时能不能知道卡在哪一步
- 成本:一次任务平均花多少 token 和时间
- 权限边界:会不会调用不该调用的工具
- 恢复能力:中间失败后能不能重试或降级
很多 Agent 看起来聪明,其实只是“偶尔很惊艳”。但产品里需要的是稳定,不是抽奖。
我比较喜欢给 Agent 做一组固定评测集,比如 20 个真实任务,每次改 Prompt、换模型、换工具后都跑一遍。不要凭感觉判断“好像变聪明了”,要看数据。
还有一点很重要:评测不要只看最终答案。中间步骤也要看。一个答案对了但过程乱来的 Agent,迟早会在更复杂的任务里出问题。
-
判断一个 Agent 好不好用,不能只看 demo。Demo 里跑通一次不难,难的是连续跑 100 次还能稳定。
我会看这几个指标:
- 成功率:同类任务跑多次,多少次能完成
- 返工率:完成后还需要人改多少
- 可解释性:失败时能不能知道卡在哪一步
- 成本:一次任务平均花多少 token 和时间
- 权限边界:会不会调用不该调用的工具
- 恢复能力:中间失败后能不能重试或降级
很多 Agent 看起来聪明,其实只是“偶尔很惊艳”。但产品里需要的是稳定,不是抽奖。
我比较喜欢给 Agent 做一组固定评测集,比如 20 个真实任务,每次改 Prompt、换模型、换工具后都跑一遍。不要凭感觉判断“好像变聪明了”,要看数据。
还有一点很重要:评测不要只看最终答案。中间步骤也要看。一个答案对了但过程乱来的 Agent,迟早会在更复杂的任务里出问题。