6月29号晚上,我的技术群里炸了。DeepSeek官方发了一封邮件,宣布V4正式版7月中旬上线,同时引入"峰谷定价"——每天上午9点到12点、下午2点到6点定义为高峰时段,API价格直接翻倍。群里的反应两极分化:有人说"涨价了要跑路",也有人说"低谷价格没变,错峰用更香"。
这其实只是6月AI API市场三件大事中的一件。整个6月,Claude Fable 5以10美元/百万Token的输入价格刷新了"最贵公开模型"纪录,Gemini 3.5 Flash降价40%成了性价比黑马,Anthropic悄悄退役了Claude 4 Opus和Sonnet 4。这些变化叠加在一起,意味着2026下半年的大模型API选型逻辑需要重新梳理。
这篇文章不堆数据表格,而是从一个实际开发者的视角,拆解这三件事对你到底意味着什么,以及迁移时有哪些坑必须避开。如果你想直接对比各平台的最新价格,可以去 TokenNexus AI API导航平台 查看,我们收录了330+个平台的实时定价信息。
第一件事:DeepSeek峰谷定价,到底涨了多少
先说清楚事实。DeepSeek V4 Pro和V4 Flash的"平时价格"和现在完全一样,变的只是高峰时段。我拉了官方公布的价格表,换算成人民币:
| 模型 | 计费场景 | 平时价格 | 高峰价格 |
|---|---|---|---|
| V4 Pro | 缓存命中输入 | ¥0.025/百万Token | ¥0.05/百万Token |
| V4 Pro | 缓存未命中输入 | ¥3.00/百万Token | ¥6.00/百万Token |
| V4 Pro | 输出 | ¥6.00/百万Token | ¥12.00/百万Token |
| V4 Flash | 缓存命中输入 | ¥0.02/百万Token | ¥0.04/百万Token |
| V4 Flash | 缓存未命中输入 | ¥1.00/百万Token | ¥2.00/百万Token |
| V4 Flash | 输出 | ¥2.00/百万Token | ¥4.00/百万Token |
高峰时段翻倍,听着吓人,但你要注意一个细节:缓存命中的价格涨幅几乎可以忽略。V4 Pro缓存命中输入从0.025元涨到0.05元,百万Token也就多花两分五厘。真正受影响的是缓存未命中的输入和输出——高峰时段这两项翻倍,对于跑批处理任务或者实时对话场景的成本影响是实打实的。
我算了一笔账。假设你的应用日均消耗500万Token(70%输入30%输出),其中30%在高峰时段调用。平时月费大约380元,引入峰谷定价后涨到约490元,增幅约29%。不算灾难,但如果你能把高峰时段的调用削掉50%,月费反而能降到320元以下。
实操建议: 批处理任务(文档摘要、数据清洗、批量翻译)尽量安排在晚上8点到次日早上9点之间跑。实时对话类应用没有错峰空间,但可以把system prompt做长做稳定,让缓存命中率拉到80%以上——缓存命中的价格涨幅只有两分五厘,几乎免费。更多缓存优化技巧可以参考我们的AI API缓存策略实战指南。
第二件事:Claude Fable 5,贵到离谱但有人买单
6月9日,Anthropic发布了Claude Fable 5,定价10美元/百万Token输入、50美元/百万Token输出。这是迄今为止最贵的公开API模型——输入价格是GPT-5.5的两倍,输出价格是Claude Opus 4.7的两倍。
但Fable 5确实强。在SWE-bench Verified基准测试上拿到了95%的通过率,在AIBench代码生成评测中是唯一拿到满分(30/30)的模型。代价是单次评测花费7.97美元——而DeepSeek V4 Flash通过24/30(80%),花费只有0.053美元。两者总成本差了152倍。
这里有个坑很多人踩了:Fable 5在处理不了的请求时会静默回退到Opus 4.8,但你付的仍然是Fable 5的价格。据早期用户的报告,大约5%的查询会发生这种回退。也就是说,你有5%的请求花了最贵的钱,拿到的却是不是最优的结果。
我的建议是:Fable 5只适合极端复杂的任务——比如金融合规审查、法律文书分析、复杂的多步代码重构。日常开发用Claude Sonnet 4.6或Opus 4.7完全够了。如果你确实需要Fable 5的能力,务必在代码里加一层逻辑,检测API返回的模型标识,发现回退后自动降级计费或者重试。
第三件事:Gemini 3.5 Flash降价40%,被低估的性价比之王
6月2日,Google把Gemini 3.5 Flash的API价格下调了40%。调整后输入1.50美元/百万Token,输出9.00美元/百万Token。这个价格放在2026年的市场里是什么水平?输出价格只有Claude Sonnet 4.6的60%,是GPT-5.5的30%。
更关键的是,Gemini 3.5 Flash有200万Token的上下文窗口,是目前商业模型中最大的之一。对于处理长文档、代码库分析这类场景,大上下文窗口意味着你可以一次性塞进去更多内容,减少多轮调用的次数和成本。
Google还提供了几个省钱杠杆:缓存输入只要0.15美元/百万Token(正常输入的十分之一),Batch API再打五折(输入0.75美元、输出4.50美元)。如果你的任务不要求实时响应(比如离线翻译、批量内容审核),用Batch API能再砍掉一半成本。
一位做法律科技的开发者告诉我,他们把合同审查流程从GPT-5.5迁移到Gemini 3.5 Flash + Batch API后,月费从2200美元降到了340美元,审查准确率从91%降到89%——2个百分点的下降在他们可接受范围内,但省了85%的钱。
迁移避坑清单:四件事必须提前做
综合这三件大事,我梳理了2026下半年做AI API迁移时最容易踩的四个坑:
坑一:Claude 4 Opus和Sonnet 4已被退役。 6月15日Anthropic正式下线了这两个模型。如果你的代码里还硬编码了模型ID(比如claude-4-opus-20250514),调用会直接报错。迁移目标应该是Opus 4.7或Sonnet 4.6,API接口完全兼容,但注意Opus 4.7换了新tokenizer,同样文本会多消耗约35%的Token——你的实际账单可能比表面价格高出三分之一。
坑二:DeepSeek高峰时段不只是涨价。 根据官方说法,峰谷定价的核心目的是"合理分配算力资源"。这意味着高峰时段不仅贵,还可能更慢、更容易触发限流。如果你的应用对延迟敏感(比如实时对话),要么准备备用模型做降级,要么调整高峰时段的请求策略。
坑三:Gemini Batch API不是即时的。 Batch API的折扣很诱人,但响应时间可能延迟数小时。如果你的业务需要实时返回结果,Batch API不适用。判断标准很简单:你的用户能等多久?能等几小时就用Batch,不能等就用标准API + 缓存。
坑四:不要只看单价,要看总成本。 我见过太多团队只对比每百万Token的单价,忽略了缓存命中率、Token膨胀率、回退成本这些隐形成本。Claude Opus 4.7的标价和上一代一样,但因为新tokenizer导致Token膨胀35%,实际成本悄悄涨了三分之一。Fable 5的5%静默回退也是同样的道理——表面单价已经很贵了,回退还会再拉高一截。
我的2026下半年API组合策略
最后分享一下我个人的选型思路,不一定适合所有人,但可以作为参考:
- 日常问答和简单任务:DeepSeek V4 Flash,错峰调用 + 高缓存命中率,月费控制在百元以内
- 代码生成和中复杂度任务:Gemini 3.5 Flash标准API,利用大上下文窗口和缓存折扣
- 批量离线任务:Gemini 3.5 Flash Batch API,五折价格处理非实时任务
- 极端复杂推理:Claude Sonnet 4.6(日常)或Opus 4.7(高难度),注意Token膨胀带来的成本上浮
- Fable 5:仅在法律/金融等容错率极低的场景使用,且必须加回退检测逻辑
这套组合的核心思路是:把贵的模型用在刀刃上,把便宜的模型用在大量重复任务上。2026年6月的这波变动本质上是市场在分层——DeepSeek用峰谷定价把低价档做了进一步细分,Google用降价抢占中档市场,Anthropic用Fable 5把高端天花板又拉高了一截。对开发者来说,选型不再是"选一个模型"的问题,而是"为不同任务搭一套组合"的问题。
如果你正在做迁移决策,建议先去 TokenNexus 上对比一下各平台的最新价格和用户评价。我们的2026年AI大模型API价格终极对比文章也有一份更详细的价格表和100M Token月消耗模拟,可以配合本文一起看。
写在最后
6月这一个月发生的事,比过去半年加起来都多。DeepSeek峰谷定价、Claude Fable 5天价上市、Gemini降价40%、Claude 4系列退役——每一件都在改变选型逻辑。但万变不离其宗:搞清楚你的任务需要什么级别的模型,然后为每个级别找到最合适的平台。
不要因为DeepSeek"涨价了"就恐慌性迁移,也不要因为Fable 5"最强"就无脑上。算清楚总成本,做好任务分级,2026下半年的API账单完全可以控制在你满意的范围内。