科技前沿资讯:昨天看到了小米的MiMo-Embodied工作,一直想好好准备下解读再对外。但今天就看到了xhs的一些评论,还有某号的解读。稍微有点偏了,作为技术出身的媒体,xiaomi内部的技术线也比较清晰了。MiMo(xiaomi models)是小米内部对大模业务线的统一称呼,MiMo-VL和MiMo-Embodied是其中两个团队。

不过本工作的核心贡献者大多是自驾&具身团队出身,看了整篇paper,确实是基于MiMo-VL架构做的,但后续大量的工作则是由自驾和具身的同学努力突破的。这一点,罗福莉也出来澄清了。

言归正传,看看具体工作吧!MiMo-Embodied 是小米推出的首个跨具身基础模型,成功整合自动驾驶与具身智能两大领域,在 29 项相关基准测试中取得state-of-the-art(SOTA)性能,为动态物理环境中的理解与推理提供了统一解决方案。
项目地址:https://github.com/XiaomiMiMo/MiMo-Embodied
论文链接:https://arxiv.org/abs/2511.16518
现有多模态大模与基准还有哪些不足?
现有模型局限于单一领域,缺乏连接自动驾驶(户外场景)与具身智能(室内场景)的统一视觉语言模型(VLM),导致跨场景泛化能力不足。除此之外,还缺乏全面的跨具身能力评估体系,现有基准仅针对单一领域部分能力进行测试。

MiMo-Embodied解决了哪些问题?
MiMo-Embodied是首个开源的跨领域统一模型:首次将自动驾驶与具身智能任务整合进单一模型,实现两大领域能力的正向迁移与相互增强。
能力全面覆盖:同时支持自动驾驶的环境感知、状态预测、驾驶规划三大核心能力,以及具身智能的可用性预测、任务规划、空间理解三大核心能力。
多阶段训练与数据构建:通过精心设计的数据集与四阶段训练策略,突破跨领域任务干扰,实现性能协同提升。
MiMo-Embodied模型的架构设计

1)核心组件
视觉编码器(Vision Transformer):基于 MiMo-VL 的 ViT 架构,支持单图、多图、视频等多种视觉输入,通过自注意力机制提取复杂特征。
投影器(Projector):采用多层感知机(MLP),将视觉编码映射到与大语言模型(LLM)对齐的 latent 空间,保障跨模态融合的兼容性。
大语言模型(LLM):继承 MiMo-VL 的预训练权重,负责文本理解与逻辑推理,实现视觉信息与语言指令的深度交互。
2)关键处理流程
-
视觉输入处理:对高分辨率视觉数据进行编码,生成结构化视觉 tokens,保留场景细节与时空关系。 -
latent 空间投影:通过 MLP 转换视觉表征,确保其与 LLM 输入空间兼容,同时保留核心特征。 -
输出生成:LLM 基于投影后的多模态信息,生成连贯、符合场景逻辑的决策或响应。
训练数据集构建

数据集涵盖三大类别,为跨领域能力提供基础支撑,具体分类如下:
1)通用数据集
-
基于 MiMo-VL 的训练语料,包含高分辨率图像、视频、长文本、图表等多元数据。 -
覆盖视觉定位、文档理解、视频时序推理、多模态逻辑推理等基础能力,构建通用视觉语言理解底座。
2)具身智能数据集
按核心能力分为三类:
-
可用性预测:整合 PixMo-Points、RoboAfford 等数据集,聚焦物体功能部位定位、交互可能性推理。 -
高级任务规划:基于 Cosmos-Reason1、EgoPlan-IT 等,训练从自然语言指令到可执行动作序列的转换能力。 -
空间理解:融合 SQA3D、VLM-3R 等,强化 3D 场景推理、空间关系判断、导航定位等能力。
3)自动驾驶数据集
按系统功能模块分为三类:
-
环境感知:包含 CODA-LM、DriveLM 等数据集,覆盖全景场景理解、区域目标识别、关键物体定位。 -
状态预测:基于 DriveLM、MME-RealWorld,聚焦交通参与者行为意图预测、多智能体交互建模。 -
驾驶规划:整合 IDKB、NuInstruct 等,训练安全驾驶动作决策与可解释性推理能力。
四阶段训练策略

阶段 1:通用与具身知识学习
-
融合通用数据集与具身智能数据集,建立基础的可用性理解、任务规划与空间推理能力。 -
强调从细粒度物体定位到场景级空间关系的多尺度理解。
阶段 2:自动驾驶知识学习
-
在阶段 1 基础上,注入自动驾驶专用数据,强化动态环境理解、多视角空间推理、交通场景分析能力。 -
重点关注安全关键任务,如危险目标识别、交通参与者意图预测、复杂道路几何理解。
阶段 3:思维链(CoT)推理微调
-
对训练数据采样并生成结构化推理链,将复杂问题拆解为分步推理步骤。 -
增强模型逻辑连贯性与决策透明度,提升多步骤问题处理能力,尤其适用于安全关键场景。
阶段 4:强化学习(RL)微调
-
采用 Group Relative Policy Optimization(GRPO)算法,针对前序阶段识别的短板场景优化。 -
设计任务专属奖励信号(如空间定位任务的 IoU 指标、选择题的答案匹配度),提升输出精度与可靠性。
核心性能表现


1)具身智能基准测试(17项)
-
可用性预测:在 VABench-Point、Part-Afford 等 5 项基准中取得 SOTA,显著优于 Qwen2.5-VL、GPT-4o 等模型。 -
任务规划:在 RoboVQA 基准中表现突出,展现出强大的长程推理与因果推断能力。 -
空间理解:在 CV-Bench、RoboSpatial 等 9 项基准中领先,尤其擅长 3D 场景推理与空间语言定位。
2)自动驾驶基准测试(12项)
-
环境感知:在 CODA-LM、DRAMA 等基准中超越 RoboTron-Drive 等专用模型,支持多粒度场景理解。 -
状态预测:准确捕捉交通参与者个体意图与多智能体交互关系,在 MME-RealWorld 中表现优异。 -
驾驶规划:在 NAVSIM 公开基准与小米私有数据集上均实现最优性能,生成的轨迹更贴合人类驾驶逻辑,安全性与效率更优。
3)消融实验验证
-
单一领域训练(仅具身或仅自动驾驶)无法实现跨领域泛化,性能损失明显。 -
直接混合双领域数据训练会导致任务干扰,自动驾驶性能略有下降。 -
四阶段训练策略可实现两大领域能力协同提升,具身任务平均性能达 62.4%(较混合训练提升 4%),自动驾驶性能达 63.3%(较混合训练提升 8.1%)。


真实世界任务评测




更多评测&对比



参考
[1] MiMo-Embodied: X-Embodied Foundation Model Technical Report