街坊秀 街坊秀

当前位置: 首页 » 街坊资讯 »

小米:请叫我Token 价格屠夫

押注2026年Token大涨价的人,短短一周迎来两次打脸。

5月22日,DeepSeek宣布DeepSeek V4 Pro永久降价;今天凌晨,小米MiMo-V2.5系列跟进降价,最高降幅达到99%。

与此同时,小米Token Plan计费体系同步优化,定价不变,可用量提升至原来的5至8倍。

没有出乎太多意料,海外Reddit、X平台以及各大开发者论坛上关于小米MiMo模型降价的讨论热度也是迅速飙升。

只是,在全行业都在高喊Token成本吃不消的当下,小米为何敢于逆流降价?更重要的是,这波降价操作又会把AI行业推向何方?

Token价格打骨折,AI行业迎来最严厉的父亲

小米公告显示,旗下AI大模型MiMo-V2.5系列API将进行永久降价,最高降幅达99%,且不再区分上下文长度。新价格已于北京时间5月27日0点全球同步生效。

不过,99%的降幅并不意味着每一次调用都会按最低价计费,关键变量在于输入缓存是否命中。

以MiMo-V2.5-Pro为例,一旦命中缓存,输入价格被击穿至约0.025元每百万Tokens。而如果输入缓存未命中,价格依然维持在3元每百万Tokens,输出价格则为6元每百万Tokens。

也就是说,这个极低价格成立的先决条件,是请求必须大量命中缓存。

对于高重复上下文、高频Agent、多轮代码任务以及批量推理任务来说,这个价格拥有极强的吸引力,但如果你的应用场景缓存命中率堪忧,真实成本显然不会触及最低点。

Token Plan的玩法也有着相似的逻辑。

小米强调定价不变,Credits大幅提升:Lite、Standard、Pro、Max四档月费仍是39元、99元、329元和659元,Credits的额度,也从0.6亿、2亿、7亿、16亿提升到对应的41亿、110亿、380亿、820亿。

且按照新的换算关系,MiMo-V2.5-Pro命中缓存只需2.5 Credits/token,未命中缓存则要300 Credits/token,输出为600 Credits/token。

这与DeepSeek的打法如出一辙。

简单回顾一下时间线:4月24日DeepSeek V4预览版发布;次日V4-Pro开启2.5折优惠;4月26日,缓存命中价格暴降至首发价的十分之一;到5月22日,临时折扣干脆变成了永久降价,V4-Pro永久降至原价的四分之一。

一番调整过后,DeepSeek-V4-Pro的输入缓存命中价格从0.1元直接降到了0.025元。随着小米MiMo-V2.5-Pro的火速跟进,国产模型的缓存命中输入价已经被彻底焊死在了这一基准线上。

DeepSeek和小米都把最有冲击力的价格放在缓存命中和场景,原因并不复杂。大模型正在从聊天走向干活,而Agent才是token消耗真正放大的地方。

在聊天场景里,用户问一句,模型答一句,成本相对容易估算。

但在Agent场景里,一个任务可能包含长上下文、多轮推理、代码生成、工具调用、网页读取、文件分析和结果校验。用户看到的只是最后一次输出,后台却可能已经发生了多次请求和大量上下文读取。

这就是缓存命中重要的地方。

Agent、代码助手和长上下文应用有一个共同特点:很多内容会反复出现。比如系统提示词、项目代码、API文档、工具说明、历史对话、依赖文件等。这些内容如果每次都重新计算,成本会很高;但如果能被缓存,下次再用时只按缓存命中价格计费,推理成本就会明显下降。

也就是说,缓存命中价格越低,越适合高频、多轮、长上下文的真实工作场景。DeepSeek和小米低价背后,其实也是为了先把开发者和高频应用吸引进来,让更多Agent、代码助手和办公自动化应用愿意跑在自己的模型上。

同理,小米此前通过MiMo Orbit、百万亿Token创造者激励计划等活动,让更多人体验MiMo,并解决真实问题。这个百万亿Token激励计划自4月28日上线,到5月26日16:08,100T Tokens已全部提前发放完毕。

从平台视角看,低价token和免费额度换来的是海量真实调用。真实调用会带来复杂任务、失败样本、用户反馈、Agent工作流、代码场景和长上下文数据,这些都会反过来帮助模型和推理系统迭代。

社区里的「养虾党」现象,也可以放在这个逻辑里理解。用户在最大化消耗额度的同时,也在帮助平台制造压力、暴露问题、积累调用数据。

所以这笔账不能只看单次推理毛利。短期收入被压低,换来的是开发者迁移、调用规模和真实反馈。对想争夺Agent生态位置的模型厂商来说,这是一种非常划算的平台投入。

罗福莉的真香定律,背后是工程暴力

不过,光有意愿还不够,关键是降得起。小米这次降价的特殊之处,正在于它和MiMo大模型负责人罗福莉此前的公开表态形成了反差。

一个月前,罗福莉曾公开反对token价格战。她当时的判断是,低价token加开放第三方Agent框架,容易让平台陷入成本失控。

她提到,第三方Agent框架往往上下文管理粗放。单次用户查询可能触发多轮低价值工具调用,每次请求又携带超过10万token的超长上下文。如果平台无法约束这类浪费,真实API成本可能是订阅价格的数十倍。

她还认为,全球算力供给已经跟不上Agent带来的token需求增长。大模型公司在没有厘清编程和Agent场景成本结构之前,盲目价格战会导致限流、降配、稳定性下降,最终损害用户体验。

但小米这次降价显然没有推翻此前判断,而是改变了价格战成立的前提。罗福莉此前反对的是没有成本结构支撑的低价,然而,小米现在向我们展示的,却是一套能够支撑低价的工程方案。

按照小米公告,其技术团队基于SGLang HiCache完整支持SWA,也就是Sliding Window Attention,将KV Cache在GPU显存、CPU内存、SSD等多级存储之间的数据搬运量降低至优化前的近七分之一,并将可缓存token数量提升至优化前的近五倍。

与此同时,小米还优化了专家并行方案和输入长度分桶策略,以提升集群输入吞吐能力。没有这层工程能力,低价很容易就会变成不可持续的补贴。有了足够强的Infra能力,低价才可能转化为长期优势。

价格战考验工程能力,也考验后方厚度。

不同于纯AI模型公司,小米的手机、汽车、IoT和消费电子业务,给它提供了更长的投入周期和更大的战略耐心。它可以把大模型服务看作AI生态入口,避免陷入只按短期API收入斤斤计较的困局。

这对中小模型公司并不友好。没有主业输血,没有过硬的Infra实力,也没有足够调用规模摊薄成本的玩家,注定无法长期跟进这种价格。

DeepSeek的低价已经直接威胁到不少海内外模型的市场定位。而随着小米MiMo的降价跟进,更多仍有体量的厂商会被迫调整价格或将重新定位产品价值。更小的模型服务商,则可能被推向更窄的垂直场景。

这轮降价某种程度上也是效率派模型厂商对市场的一次筛选。有工程能力、算力调度能力和生态入口的公司,可以承受更低价格带来的压力。只有模型能力、但推理成本压不下来的公司,会越来越被动。

并且伴随继续下探的空间逐渐变窄,价格越接近物理成本,单纯降价的价值越有限,下一阶段,模型质量、Agent适配、开发者工具、生态绑定、服务稳定性和企业交付能力,也都将迎来新一轮内卷。

模型能力决定了AI发展的上限,而推理成本决定了AI普及的规模。等到真正便宜的Token涌入应用层时,我们才会真正看清,属于AI的下一个爆发时代会是什么模样。

本内容来源于网络,观点仅代表作者本人,不代表虎嗅立场。

如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。

未经允许不得转载: 街坊秀 » 小米:请叫我Token 价格屠夫