小米AI完成三项重要突破!Xiaomi MiMo-V2.5-Pro-UltraSpeed模式刷新全球推理速度

搜狐科技 2026-06-09 16:12

68日晚,小米MiMo技术团队正式上线Xiaomi MiMo-V2.5-Pro-UltraSpeed模式,这是全球首个在通用 GPU 上推理速度突破1000 tokens/s的万亿参数模型,刷新旗舰模型全球推理最快速度。

MiMo-V2.5-Pro-UltraSpeed通过对模型推理系统的全链路工程能力优化,在不降低模型能力前提下,首次把推理速度提升至1000 tokens/s且无需定制芯片、只使用通用GPU即可达成。这一突破打破了快、强、通用 GPU无法兼得的行业不可能三角,小米MiMo大模型推理工程实力跻身全球第一梯队。

即日起至623日 ,MiMo-V2-Pro-UltraSpeed模式将采取申请制限时开放,通过申请的用户可接入 API 进行体验。MiMo-V2.5-Pro-UltraSpeed API 同步上线,采用限时体验价,定价为 MiMo-V2.5-Pro 的 倍,同时提供输出速度约 10 倍的提升,目前仅支持 API 体验,不支持 Token Plan

值得一提的是,自4月底以来,小米AI在模型能力、推理成本和推理效率三个维度接连取得突破:423日, MiMo-V2.5-Pro在全球权威大模型测评平台Artificial Analysis上,获得综合智能指数与Agent指数全球开源模型并列第一;527日,Xiaomi MiMo-V2.5系列模型API因技术优化宣布最高降价99%,并同步调整Token Plan计费体系。68日,MiMo-V2.5-Pro-UltraSpeed1000 tokens/s创下万亿参数旗舰模型推理速度新纪录。

小米AI完成三项重要突破!Xiaomi MiMo-V2.5-Pro-UltraSpeed模式刷新全球推理速度图1

全链路优化工程能力突破

打破快、强、通用不可能三角

过去,大模型领域存在一个隐形瓶颈:速度快的模型往往参数小、能力弱;能力强的模型又因为体量庞大而响应缓慢,且很多高速推理模型依赖昂贵的专用芯片。

Xiaomi MiMo-V2.5-Pro-UltraSpeed模式用通用GPU实现了万亿参数模型的1000 tokens/s推理速度,让大模型在不降低模型能力的前提下,获得接近实时的复杂任务响应能力,成为全球首个达到这一速度水平的万亿参数模型。

小米MiMo技术团队表示,该突破是基于Xiaomi MiMo-V2.5 ProSWA架构,叠加了 FP4 ExpertsDFlash 解码以及TileRT团队的执行系统 Co‑design,从模型到推理引擎再到GPU执行路径进行了全链路优化。这是小米AI在模型推理系统全链路优化工程能力的新突破,打破了快、强、通用GPU无法兼得的行业不可能三角,推理工程实力跻身全球第一梯队。

Xiaomi MiMo-V2.5-Pro-UltraSpeed的发布,标志着旗舰大模型开始迈入新的推理效率阶段,也为未来更广泛的实时应用场景提供了可能。

小米AI完成三项重要突破!Xiaomi MiMo-V2.5-Pro-UltraSpeed模式刷新全球推理速度图2

聊天实时迈向任务实时

大模型拓宽Agent生产力边界

作为全球首个在通用 GPU 上突破1000 tokens/s的万亿参数模型,Xiaomi MiMo-V2.5-Pro-UltraSpeed模式带来的变化,不仅仅是回答问题快了几秒,它第一次让万亿参数模型能够真正参与到复杂的实时任务场景。

过去,大模型最典型的使用场景是聊天问答。用户向模型提问,模型给出答案;用户继续追问,模型继续回复。

但随着Agent兴起,大模型开始从回答问题转向完成任务。无论是开发应用、生成代码,还是多个Agent协同的复杂工作流,本质上都需要模型在后台持续进行大量推理调用。

过去限制这些场景普及的关键因素并非模型能力不足,而是推理延迟过高。当一次任务需要调用几十次甚至上百次模型推理时,每轮几秒钟的等待都会被不断放大,最终形成分钟级甚至更长的响应、执行时间。

Xiaomi MiMo-V2.5-Pro-UltraSpeed模式实现1000 tokens/s推理速度后,万亿参数大模型具备了接近实时完成复杂任务的能力,大模型进入智能编程、Agent协同、高频量化交易等复杂任务场景的门槛正在降低。

如果说过去的大模型解决的是聊天效率问题,那么更高的推理效率正在推动大模型从聊天实时迈向任务实时,从信息工具逐步演变为真正的生产力工具。

小米AI完成三项重要突破!Xiaomi MiMo-V2.5-Pro-UltraSpeed模式刷新全球推理速度图3

接连完成三项重要技术突破

小米AI进展远超预期

截至目前,小米AI在短短一个半月内已接连完成三项重要技术突破。

423日,MiMo-V2.5-Pro在全球权威大模型测评平台Artificial Analysis上,获得综合智能指数、Agent指数双项全球开源模型并列第一。

527日,得益于小米MiMo技术团队持续优化推理系统,显著提升了缓存命中率与推理效率,在保障服务质量的前提下,有效降低了单位token服务成本。Xiaomi MiMo-V2.5系列模型API宣布永久降价,并同步调整Token Plan计费体系。

68日,Xiaomi MiMo-V2.5-Pro-UltraSpeed实现1000 tokens/s推理速度突破,刷新旗舰大模型全球推理速度纪录。

从模型登顶全球开源模型第一,到技术优化驱动API降价,再到推理速度刷新全球记录,小米AI在一个半月内接连完成三项重要突破,进展远超外界预期。

小米AI完成三项重要突破!Xiaomi MiMo-V2.5-Pro-UltraSpeed模式刷新全球推理速度图4
小米AI完成三项重要突破!Xiaomi MiMo-V2.5-Pro-UltraSpeed模式刷新全球推理速度图5

小米AI完成三项重要突破!Xiaomi MiMo-V2.5-Pro-UltraSpeed模式刷新全球推理速度图9小米AI完成三项重要突破!Xiaomi MiMo-V2.5-Pro-UltraSpeed模式刷新全球推理速度图10

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 小米
more
iPhone 17标准版无缘部分Siri AI功能
Q1业绩暴增!抢滩AI算力、具身智能,3C系统集成商“第二春”来了?
从「展开屏幕」到「展开任务」:折叠屏进入 AI 时代
燃动深圳!2026华南工博会盛大举行,AI智造重构制造业新生态
Anthropic老大的唯一 -1,就是AI股神的未婚妻
争论几十年的水之谜,被AI一举破解!港城大&中石大成果登Nature Physics
AI大模型网络:训练与推理的底层逻辑与架构差异
腾讯研究院AI速递 20260612
从感知智能到 AI 智能体:2026 高通峰会的三大趋势 —— 智能座舱、智能驾驶、舱驾融合
韩国半导体出口暴增 206%:AI 驱动的超级周期与泡沫隐忧
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号