多步 Agent 最容易失败的地方,往往不是模型完全不会,而是中间某一步偏了,后面还继续认真执行。
我见过比较多的是这几种:
一开始理解错目标,后面越努力越偏
工具返回异常,它假装没事继续编
查到旧资料,却当成最新信息
中间结果没有校验,直接进入下一步
权限边界不清楚,尝试做不该做的动作
防法也不复杂,但要提前设计:
关键节点让它停下来确认
工具调用失败必须显式报错
涉及时效信息要求标注来源和日期
每一步输出可检查的中间结果
高风险动作只给建议,不自动执行
Agent 不是越自主越好。很多业务场景里,“半自动 + 人确认”比“全自动”更靠谱。
如果你们的 Agent 已经上线,我建议先把失败案例收集起来。真实失败样本比漂亮 demo 更值钱,它会告诉你系统到底哪里脆。