小米开源首代机器人VLA大模型Xiaomi-Robotics-0，突破具身智能推理延迟瓶颈

【区角快讯】2026年2月12日，小米正式对外发布并开源其首款机器人视觉语言动作（VLA）大模型——Xiaomi-Robotics-0。该模型参数规模达47亿，聚焦解决传统VLA系统在真实物理环境中因推理延迟导致动作断续、执行不连贯的行业难题，具备强大的视觉语言理解能力与高性能实时执行能力，可在消费级显卡上实现低延迟推理，并已在多项仿真与真机测试中刷新SOTA纪录。

Xiaomi-Robotics-0采用Mixture-of-Transformers（MoT）混合架构，构建“视觉语言大脑+动作执行小脑”的双核心体系，形成从感知到决策再到执行的高效闭环。其中，视觉语言大脑基于多模态VLM大模型，能够准确解析人类模糊自然语言指令，并精准捕捉高清图像中的空间关系，构成整个系统的认知与决策中枢。

动作执行小脑则集成多层Diffusion Transformer（DiT）模块，不直接输出单一动作指令，而是生成高频、平滑的“动作块”，再通过流匹配技术确保动作轨迹的连续性与物理合理性，显著提升机器人在复杂任务中的灵活性与适应性。

为兼顾常识理解与精细操作能力，小米设计了跨模态预训练与后训练相结合的两阶段训练策略。在跨模态预训练阶段，通过Action Proposal机制对齐VLM特征空间与动作空间；随后冻结VLM部分，专注于训练DiT模块，使其能从噪声中还原出高精度动作序列，保障动作流畅性。

进入后训练阶段，系统引入异步推理机制，从根本上缓解真机运行中的“动作断层”问题。同时，Clean Action Prefix技术确保动作时间轴上的连续性，而Λ-shape Attention Mask则引导模型聚焦当前视觉输入，削弱历史动作惯性干扰，从而大幅提升对环境突变的响应速度。

实测结果显示，该模型在多维度评估中均表现领先。在LIBERO、CALVIN与SimplerEnv三大主流仿真平台的所有基准测试中，Xiaomi-Robotics-0超越30种现有模型，取得当前最优成绩。在双臂机器人真机部署中，其成功完成积木拆解、毛巾折叠等长周期高难度任务，展现出优异的手眼协调能力，可灵活应对刚性与柔性材质物体。

此外，模型完整保留了VLM原有的物体检测、视觉问答及逻辑推理等多模态能力，在具身智能相关基准测试中表现突出，有效弥补了传统VLA模型“重执行、轻理解”的缺陷。

目前，小米已将Xiaomi-Robotics-0的技术文档、源代码及模型权重全面开源，开发者可通过GitHub、Hugging Face等平台免费获取，助力全球具身智能研究与应用生态发展。此举标志着小米在通用机器人核心技术领域迈出关键一步，也反映出中国科技企业正加速推动AI与物理世界深度融合的趋势。