小米开源首代机器人VLA大模型Xiaomi-Robotics-0,突破具身智能推理延迟瓶颈

科技区角 2026-02-12 12:01

【区角快讯】2026年2月12日,小米正式对外发布并开源其首款机器人视觉语言动作(VLA)大模型——Xiaomi-Robotics-0。该模型参数规模达47亿,聚焦解决传统VLA系统在真实物理环境中因推理延迟导致动作断续、执行不连贯的行业难题,具备强大的视觉语言理解能力与高性能实时执行能力,可在消费级显卡上实现低延迟推理,并已在多项仿真与真机测试中刷新SOTA纪录。



Xiaomi-Robotics-0采用Mixture-of-Transformers(MoT)混合架构,构建“视觉语言大脑+动作执行小脑”的双核心体系,形成从感知到决策再到执行的高效闭环。其中,视觉语言大脑基于多模态VLM大模型,能够准确解析人类模糊自然语言指令,并精准捕捉高清图像中的空间关系,构成整个系统的认知与决策中枢。

动作执行小脑则集成多层Diffusion Transformer(DiT)模块,不直接输出单一动作指令,而是生成高频、平滑的“动作块”,再通过流匹配技术确保动作轨迹的连续性与物理合理性,显著提升机器人在复杂任务中的灵活性与适应性。

为兼顾常识理解与精细操作能力,小米设计了跨模态预训练与后训练相结合的两阶段训练策略。在跨模态预训练阶段,通过Action Proposal机制对齐VLM特征空间与动作空间;随后冻结VLM部分,专注于训练DiT模块,使其能从噪声中还原出高精度动作序列,保障动作流畅性。

进入后训练阶段,系统引入异步推理机制,从根本上缓解真机运行中的“动作断层”问题。同时,Clean Action Prefix技术确保动作时间轴上的连续性,而Λ-shape Attention Mask则引导模型聚焦当前视觉输入,削弱历史动作惯性干扰,从而大幅提升对环境突变的响应速度。

实测结果显示,该模型在多维度评估中均表现领先。在LIBERO、CALVIN与SimplerEnv三大主流仿真平台的所有基准测试中,Xiaomi-Robotics-0超越30种现有模型,取得当前最优成绩。在双臂机器人真机部署中,其成功完成积木拆解、毛巾折叠等长周期高难度任务,展现出优异的手眼协调能力,可灵活应对刚性与柔性材质物体。

此外,模型完整保留了VLM原有的物体检测、视觉问答及逻辑推理等多模态能力,在具身智能相关基准测试中表现突出,有效弥补了传统VLA模型“重执行、轻理解”的缺陷。

目前,小米已将Xiaomi-Robotics-0的技术文档、源代码及模型权重全面开源,开发者可通过GitHub、Hugging Face等平台免费获取,助力全球具身智能研究与应用生态发展。此举标志着小米在通用机器人核心技术领域迈出关键一步,也反映出中国科技企业正加速推动AI与物理世界深度融合的趋势。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源 机器人 小米 大模型
more
中国开源AI强势领跑全球 千问模型家族登顶Hugging Face采用率榜首
中国开源AI模型全球份额跃升至15%,成日本AI开发重要基础
韩国AI国家队陷“套壳”风波:三成决赛模型被指复用中国开源代码
百万围观、HuggingFace多模态登顶,华人团队开源语音版「DeepSeek」海外爆火
Kimi K2.5正式开源,月之暗面推多模态全能大模型
月之暗面发布开源多模态模型Kimi K2.5,支持文本、图像与视频理解,强化智能体协同与编程能力
智谱开源轻量级OCR模型GLM-OCR,支持高并发与边缘部署
商汤开源SenseNova-MARS,多模态自主推理模型突破AI执行边界
让AI当「动作导演」:腾讯混元动作大模型开源,听懂模糊指令,生成高质量3D角色动画
智谱GLM-5开源,GLM Coding Plan涨价
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号