小米的MiMo-Embodied:整合自驾和具身任务,29项SOTA!

具身智能之心 2025-11-24 08:00

科技前沿资讯:昨天看到了小米的MiMo-Embodied工作,一直想好好准备下解读再对外。但今天就看到了xhs的一些评论,还有某号的解读。稍微有点偏了,作为技术出身的媒体,xiaomi内部的技术线也比较清晰了。MiMo(xiaomi models)是小米内部对大模业务线的统一称呼,MiMo-VL和MiMo-Embodied是其中两个团队。

科技前沿资讯:小米的MiMo-Embodied:整合自驾和具身任务,29项SOTA!

不过本工作的核心贡献者大多是自驾&具身团队出身,看了整篇paper,确实是基于MiMo-VL架构做的,但后续大量的工作则是由自驾和具身的同学努力突破的。这一点,罗福莉也出来澄清了。

小米的MiMo-Embodied:整合自驾和具身任务,29项SOTA!图2

言归正传,看看具体工作吧!MiMo-Embodied 是小米推出的首个跨具身基础模型,成功整合自动驾驶与具身智能两大领域,在 29 项相关基准测试中取得state-of-the-art(SOTA)性能,为动态物理环境中的理解与推理提供了统一解决方案。

项目地址:https://github.com/XiaomiMiMo/MiMo-Embodied

论文链接:https://arxiv.org/abs/2511.16518

现有多模态大模与基准还有哪些不足?

现有模型局限于单一领域,缺乏连接自动驾驶(户外场景)与具身智能(室内场景)的统一视觉语言模型(VLM),导致跨场景泛化能力不足。除此之外,还缺乏全面的跨具身能力评估体系,现有基准仅针对单一领域部分能力进行测试。

科技前沿资讯:小米的MiMo-Embodied:整合自驾和具身任务,29项SOTA!图3

MiMo-Embodied解决了哪些问题?

MiMo-Embodied是首个开源的跨领域统一模型:首次将自动驾驶与具身智能任务整合进单一模型,实现两大领域能力的正向迁移与相互增强。

能力全面覆盖:同时支持自动驾驶的环境感知、状态预测、驾驶规划三大核心能力,以及具身智能的可用性预测、任务规划、空间理解三大核心能力。

多阶段训练与数据构建:通过精心设计的数据集与四阶段训练策略,突破跨领域任务干扰,实现性能协同提升。

MiMo-Embodied模型的架构设计

科技前沿资讯:小米的MiMo-Embodied:整合自驾和具身任务,29项SOTA!图4

1)核心组件

视觉编码器(Vision Transformer):基于 MiMo-VL 的 ViT 架构,支持单图、多图、视频等多种视觉输入,通过自注意力机制提取复杂特征。

投影器(Projector):采用多层感知机(MLP),将视觉编码映射到与大语言模型(LLM)对齐的 latent 空间,保障跨模态融合的兼容性。

大语言模型(LLM):继承 MiMo-VL 的预训练权重,负责文本理解与逻辑推理,实现视觉信息与语言指令的深度交互。

2)关键处理流程

  • 视觉输入处理:对高分辨率视觉数据进行编码,生成结构化视觉 tokens,保留场景细节与时空关系。
  • latent 空间投影:通过 MLP 转换视觉表征,确保其与 LLM 输入空间兼容,同时保留核心特征。
  • 输出生成:LLM 基于投影后的多模态信息,生成连贯、符合场景逻辑的决策或响应。

训练数据集构建

小米的MiMo-Embodied:整合自驾和具身任务,29项SOTA!图5

数据集涵盖三大类别,为跨领域能力提供基础支撑,具体分类如下:

1)通用数据集

  • 基于 MiMo-VL 的训练语料,包含高分辨率图像、视频、长文本、图表等多元数据。
  • 覆盖视觉定位、文档理解、视频时序推理、多模态逻辑推理等基础能力,构建通用视觉语言理解底座。

2)具身智能数据集

按核心能力分为三类:

  • 可用性预测:整合 PixMo-Points、RoboAfford 等数据集,聚焦物体功能部位定位、交互可能性推理。
  • 高级任务规划:基于 Cosmos-Reason1、EgoPlan-IT 等,训练从自然语言指令到可执行动作序列的转换能力。
  • 空间理解:融合 SQA3D、VLM-3R 等,强化 3D 场景推理、空间关系判断、导航定位等能力。

3)自动驾驶数据集

按系统功能模块分为三类:

  • 环境感知:包含 CODA-LM、DriveLM 等数据集,覆盖全景场景理解、区域目标识别、关键物体定位。
  • 状态预测:基于 DriveLM、MME-RealWorld,聚焦交通参与者行为意图预测、多智能体交互建模。
  • 驾驶规划:整合 IDKB、NuInstruct 等,训练安全驾驶动作决策与可解释性推理能力。

四阶段训练策略

科技前沿资讯:小米的MiMo-Embodied:整合自驾和具身任务,29项SOTA!图6

阶段 1:通用与具身知识学习

  • 融合通用数据集与具身智能数据集,建立基础的可用性理解、任务规划与空间推理能力。
  • 强调从细粒度物体定位到场景级空间关系的多尺度理解。

阶段 2:自动驾驶知识学习

  • 在阶段 1 基础上,注入自动驾驶专用数据,强化动态环境理解、多视角空间推理、交通场景分析能力。
  • 重点关注安全关键任务,如危险目标识别、交通参与者意图预测、复杂道路几何理解。

阶段 3:思维链(CoT)推理微调

  • 对训练数据采样并生成结构化推理链,将复杂问题拆解为分步推理步骤。
  • 增强模型逻辑连贯性与决策透明度,提升多步骤问题处理能力,尤其适用于安全关键场景。

阶段 4:强化学习(RL)微调

  • 采用 Group Relative Policy Optimization(GRPO)算法,针对前序阶段识别的短板场景优化。
  • 设计任务专属奖励信号(如空间定位任务的 IoU 指标、选择题的答案匹配度),提升输出精度与可靠性。

核心性能表现

小米的MiMo-Embodied:整合自驾和具身任务,29项SOTA!图7
小米的MiMo-Embodied:整合自驾和具身任务,29项SOTA!图8

1)具身智能基准测试(17项)

  • 可用性预测:在 VABench-Point、Part-Afford 等 5 项基准中取得 SOTA,显著优于 Qwen2.5-VL、GPT-4o 等模型。
  • 任务规划:在 RoboVQA 基准中表现突出,展现出强大的长程推理与因果推断能力。
  • 空间理解:在 CV-Bench、RoboSpatial 等 9 项基准中领先,尤其擅长 3D 场景推理与空间语言定位。

2)自动驾驶基准测试(12项)

  • 环境感知:在 CODA-LM、DRAMA 等基准中超越 RoboTron-Drive 等专用模型,支持多粒度场景理解。
  • 状态预测:准确捕捉交通参与者个体意图与多智能体交互关系,在 MME-RealWorld 中表现优异。
  • 驾驶规划:在 NAVSIM 公开基准与小米私有数据集上均实现最优性能,生成的轨迹更贴合人类驾驶逻辑,安全性与效率更优。

3)消融实验验证

  • 单一领域训练(仅具身或仅自动驾驶)无法实现跨领域泛化,性能损失明显。
  • 直接混合双领域数据训练会导致任务干扰,自动驾驶性能略有下降。
  • 四阶段训练策略可实现两大领域能力协同提升,具身任务平均性能达 62.4%(较混合训练提升 4%),自动驾驶性能达 63.3%(较混合训练提升 8.1%)。
科技前沿资讯:小米的MiMo-Embodied:整合自驾和具身任务,29项SOTA!图9
科技前沿资讯:小米的MiMo-Embodied:整合自驾和具身任务,29项SOTA!图10

真实世界任务评测

科技前沿资讯:小米的MiMo-Embodied:整合自驾和具身任务,29项SOTA!图11
科技前沿资讯:小米的MiMo-Embodied:整合自驾和具身任务,29项SOTA!图12
科技前沿资讯:小米的MiMo-Embodied:整合自驾和具身任务,29项SOTA!图13
科技前沿资讯:小米的MiMo-Embodied:整合自驾和具身任务,29项SOTA!图14

更多评测&对比

科技前沿资讯:小米的MiMo-Embodied:整合自驾和具身任务,29项SOTA!图15
科技前沿资讯:小米的MiMo-Embodied:整合自驾和具身任务,29项SOTA!图16
科技前沿资讯:小米的MiMo-Embodied:整合自驾和具身任务,29项SOTA!图17

参考

[1] MiMo-Embodied: X-Embodied Foundation Model Technical Report

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
小米
more
小米汽车败诉,返还消费者10000元!
英伟达或对华出售H200,小米催收尾款案一审宣判,特斯拉因致命车祸在美被起诉,美载人登月或延至2028,这就是今天的其他大新闻!
七年憋出个王炸!小米三折叠机曝光,能把价格打下来吗?
小米狂赚1131亿,雷军打了所有人的脸
上汽集团、比亚迪、吉利汽车、奇瑞汽车、赛力斯、小米汽车等23家中国车企2025年第三季度财报汇总
Netflix报827亿美元收购华纳;小米17 Ultra曝光;摩尔线程上市首日暴涨468%|极客早知道
【穿戴】小米手环/AI眼镜开启灰度更新 眼镜还支持英语口语陪练?
福特CEO盛赞小米:他们就是中国的苹果!
小米汽车败诉,雷军风格大变,一切都结束了
手机真实销量:只有苹果OV赢麻,小米华为却下跌了
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号