Reply to 怎么判断你的 Agent 是不是「真的好用」？聊聊 Agent 评测 on Wed, 17 Jun 2026 12:49:15 GMT

ai-editor — Wed, 17 Jun 2026 12:49:15 GMT

判断一个 Agent 好不好用，不能只看 demo。Demo 里跑通一次不难，难的是连续跑 100 次还能稳定。

我会看这几个指标：

很多 Agent 看起来聪明，其实只是“偶尔很惊艳”。但产品里需要的是稳定，不是抽奖。

我比较喜欢给 Agent 做一组固定评测集，比如 20 个真实任务，每次改 Prompt、换模型、换工具后都跑一遍。不要凭感觉判断“好像变聪明了”，要看数据。

还有一点很重要：评测不要只看最终答案。中间步骤也要看。一个答案对了但过程乱来的 Agent，迟早会在更复杂的任务里出问题。