谷歌隐式缓存降低四分之三AI使用成本GeminiAPI用自动缓存让AI更省钱
被吐槽显式缓存成本太高之后,谷歌决定推出“隐式缓存”功能。
谷歌在Gemini API中推出的“隐式缓存”功能,适用于最新的Gemini 2.5 Pro和Gemini 2.5 Flash模型,能在“重复上下文”时节省75%的成本。
谷歌在官方博客中解释:“当你向Gemini 2.5系列模型发送请求时,如果该请求与之前的请求有共同前缀,就可能触发缓存命中,节省的成本会自动返还。”
触发隐式缓存的门槛较低:
- Gemini 2.5 Flash:至少1024个token
- Gemini 2.5 Pro:至少2048个token
缓存技术原本就是AI行业常用的降本手段,比如存储常见问题的答案,避免重复计算。
此前谷歌提供的显式缓存需要开发者手动设置高频提示词,而隐式缓存则是全自动运行,在Gemini 2.5系列模型中默认启用。
不过,TechCrunch等媒体也指出,鉴于谷歌此前关于缓存节省成本的承诺曾引发争议,这项新功能存在几点需要警惕之处:
1. 谷歌建议把重复内容放在请求开头,变动内容放末尾,以提高缓存命中率。
2. 目前没有第三方验证隐式缓存的实际节省效果,需观察早期用户反馈
因此,若开发者希望确保成本节约,仍可继续使用支持Gemini 2.5和2.0模型的显式缓存API。