小米开源首代机器人大模型公布,更智能

科技美学 2026-02-12 21:30
今日,小米对外发布开源 VLA 模型 Xiaomi-Robotics-0,拥有 47 亿参数、兼具视觉语言理解与高性能实时执行能力,刷新多项 SOTA。它在现实真机任务中实现了物理智能的泛化 —— 动作连贯、反应灵敏,且能在消费级显卡上实现实时推理
小米开源首代机器人大模型公布,更智能图1
官方介绍获悉,物理智能的核心在于“感知-决策-执行”的闭环质量。为了兼顾通用理解与精细控制,Xiaomi-Robotics-0 采用了主流的 Mixture-of-Transformers (MoT) 架构。
视觉语言大脑(VLM): 团队采用了多模态 VLM 大模型作为底座。它负责理解人类的模糊指令(如“请把毛巾叠好”),并从高清视觉输入中捕捉空间关系。
动作执行小脑(Action Expert):为了生成高频、平滑的动作,团队嵌入了多层的 Diffusion Transformer (DiT)。它不直接输出单一动作,而是生成一个“动作块”(Action Chunk),并通过流匹配(Flow-matching)技术确保动作的精准度。
小米开源首代机器人大模型公布,更智能图2
针对大部分 VLA 模型在学动作时往往会“变笨”,失去本身的理解能力的问题小米通过多模态与动作数据的混合训练,让模型在学会操作的同时,依然保持强大的物体检测、视觉问答和逻辑推理能力。
VLM 协同训练:首先引入了 Action Proposal 机制,强迫 VLM 模型在理解图像的同时预测多种动作分布。这一步是为了让 VLM 的特征空间与动作空间对齐,不再仅仅是“纸上谈兵”。
DiT 专项训练:随后冻结 VLM,专注于训练 DiT,学习如何从噪声中恢复出精准的动作序列。这一阶段,小米去除了 VLM 的离散 Token,完全依赖 KV 特征进行条件生成。通过 DiT 专项训练,模型可以生成高度平滑、精准的的动作序列。
小米开源首代机器人大模型公布,更智能图3
针对推理延迟引发的真机“动作断层”问题,小米团队采用异步推理模式 —— 让模型推理与机器人运行脱离同步约束、异步执行,从机制上保障动作连贯流畅。为进一步强化模型对环境变化的响应敏捷性与运行稳定性,小米引入了:
Clean Action Prefix:将前一时刻预测的动作作为输入,确保动作轨迹在时间维度上是连续的、不抖动的,进一步增加流畅性。
Λ-shape Attention Mask:通过特殊的注意力掩码,强制模型更关注当前的视觉反馈,而不是沉溺于历史惯性。这让机器人在面对环境突发变化时,能够展现出极强的反应性物理智能。
小米开源首代机器人大模型公布,更智能图4
据小米官方介绍,在多维度的测试中,Xiaomi-Robotics-0 展现出优异的表现:
仿真标杆: 在 LIBERO、CALVIN 和 SimplerEnv 测试中,模型在所有的 Benchmark、30 种模型对比中,均取得了当前最优的结果。
真实挑战: 团队在双臂机器人平台上部署了模型并与行业标杆进行了横向对比。在积木拆解和叠毛巾这种长周期、高度挑战的任务中,机器人展现出了极高的手眼协调性。无论是刚性的积木还是柔性的织物,都能处理得游刃有余。
多模态能力:模型保留了 VLM 本身的多模态理解能力,尤其是在具身更相关的 benchmark 中表现优异,这是之前的 VLA 模型所不具备的。
小米开源首代机器人大模型公布,更智能图5
目前,小米已经宣布将模型进行开源,感兴趣的小伙伴可以体验一下。
小米开源首代机器人大模型公布,更智能图6
近期文章精选:

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源 机器人 小米 大模型
more
2026年人形机器人市场展望:规模量产前夜的机遇与破局之路
三星首款Ultra旗舰扫地机器人亮相,聚焦高温洗拖与越障能力
刚刚,全球首届机器人「春晚」炸场!稚晖君带队,节目效果拉满,连观众都是机器人
变革已然开启:新一代机器人系统
首届机器人春晚:舞蹈、小品、魔术,玩得比人类还6?
贾跃亭回应FF股价异动:机器人业务反哺造车,四项举措稳市护盘
人形机器人从“期货”完成价值兑现
具身智能6|State-free Policy:一篇改变VLA范式且真正解决实际问题的工作,让机器人“只看不摸”却更能从容操作!
苹果CarPlay将支持第三方AI聊天机器人,Siri或面临“让位”
又一车企转向,人形机器人还是一门好生意吗?
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号