【区角快讯】2026年2月12日,小米正式对外发布并开源其首款机器人视觉语言动作(VLA)大模型——Xiaomi-Robotics-0。该模型参数规模达47亿,聚焦解决传统VLA系统在真实物理环境中因推理延迟导致动作断续、执行不连贯的行业难题,具备强大的视觉语言理解能力与高性能实时执行能力,可在消费级显卡上实现低延迟推理,并已在多项仿真与真机测试中刷新SOTA纪录。

Xiaomi-Robotics-0采用Mixture-of-Transformers(MoT)混合架构,构建“视觉语言大脑+动作执行小脑”的双核心体系,形成从感知到决策再到执行的高效闭环。其中,视觉语言大脑基于多模态VLM大模型,能够准确解析人类模糊自然语言指令,并精准捕捉高清图像中的空间关系,构成整个系统的认知与决策中枢。
动作执行小脑则集成多层Diffusion Transformer(DiT)模块,不直接输出单一动作指令,而是生成高频、平滑的“动作块”,再通过流匹配技术确保动作轨迹的连续性与物理合理性,显著提升机器人在复杂任务中的灵活性与适应性。
为兼顾常识理解与精细操作能力,小米设计了跨模态预训练与后训练相结合的两阶段训练策略。在跨模态预训练阶段,通过Action Proposal机制对齐VLM特征空间与动作空间;随后冻结VLM部分,专注于训练DiT模块,使其能从噪声中还原出高精度动作序列,保障动作流畅性。
进入后训练阶段,系统引入异步推理机制,从根本上缓解真机运行中的“动作断层”问题。同时,Clean Action Prefix技术确保动作时间轴上的连续性,而Λ-shape Attention Mask则引导模型聚焦当前视觉输入,削弱历史动作惯性干扰,从而大幅提升对环境突变的响应速度。
实测结果显示,该模型在多维度评估中均表现领先。在LIBERO、CALVIN与SimplerEnv三大主流仿真平台的所有基准测试中,Xiaomi-Robotics-0超越30种现有模型,取得当前最优成绩。在双臂机器人真机部署中,其成功完成积木拆解、毛巾折叠等长周期高难度任务,展现出优异的手眼协调能力,可灵活应对刚性与柔性材质物体。
此外,模型完整保留了VLM原有的物体检测、视觉问答及逻辑推理等多模态能力,在具身智能相关基准测试中表现突出,有效弥补了传统VLA模型“重执行、轻理解”的缺陷。
目前,小米已将Xiaomi-Robotics-0的技术文档、源代码及模型权重全面开源,开发者可通过GitHub、Hugging Face等平台免费获取,助力全球具身智能研究与应用生态发展。此举标志着小米在通用机器人核心技术领域迈出关键一步,也反映出中国科技企业正加速推动AI与物理世界深度融合的趋势。