小米的MiMo-Embodied：整合自驾和具身任务，29项SOTA！

具身智能之心 2025-11-24 08:00

科技前沿资讯：昨天看到了小米的MiMo-Embodied工作，一直想好好准备下解读再对外。但今天就看到了xhs的一些评论，还有某号的解读。稍微有点偏了，作为技术出身的媒体，xiaomi内部的技术线也比较清晰了。MiMo（xiaomi models）是小米内部对大模业务线的统一称呼，MiMo-VL和MiMo-Embodied是其中两个团队。

科技前沿资讯：小米的MiMo-Embodied：整合自驾和具身任务，29项SOTA！

不过本工作的核心贡献者大多是自驾&具身团队出身，看了整篇paper，确实是基于MiMo-VL架构做的，但后续大量的工作则是由自驾和具身的同学努力突破的。这一点，罗福莉也出来澄清了。

小米的MiMo-Embodied：整合自驾和具身任务，29项SOTA！图2

言归正传，看看具体工作吧！MiMo-Embodied 是小米推出的首个跨具身基础模型，成功整合自动驾驶与具身智能两大领域，在 29 项相关基准测试中取得state-of-the-art（SOTA）性能，为动态物理环境中的理解与推理提供了统一解决方案。

★

项目地址：https://github.com/XiaomiMiMo/MiMo-Embodied

论文链接：https://arxiv.org/abs/2511.16518

现有多模态大模与基准还有哪些不足？

现有模型局限于单一领域，缺乏连接自动驾驶（户外场景）与具身智能（室内场景）的统一视觉语言模型（VLM），导致跨场景泛化能力不足。除此之外，还缺乏全面的跨具身能力评估体系，现有基准仅针对单一领域部分能力进行测试。

科技前沿资讯：小米的MiMo-Embodied：整合自驾和具身任务，29项SOTA！图3

MiMo-Embodied解决了哪些问题？

MiMo-Embodied是首个开源的跨领域统一模型：首次将自动驾驶与具身智能任务整合进单一模型，实现两大领域能力的正向迁移与相互增强。

能力全面覆盖：同时支持自动驾驶的环境感知、状态预测、驾驶规划三大核心能力，以及具身智能的可用性预测、任务规划、空间理解三大核心能力。

多阶段训练与数据构建：通过精心设计的数据集与四阶段训练策略，突破跨领域任务干扰，实现性能协同提升。

MiMo-Embodied模型的架构设计

科技前沿资讯：小米的MiMo-Embodied：整合自驾和具身任务，29项SOTA！图4

1）核心组件

视觉编码器（Vision Transformer）：基于 MiMo-VL 的 ViT 架构，支持单图、多图、视频等多种视觉输入，通过自注意力机制提取复杂特征。

投影器（Projector）：采用多层感知机（MLP），将视觉编码映射到与大语言模型（LLM）对齐的 latent 空间，保障跨模态融合的兼容性。

大语言模型（LLM）：继承 MiMo-VL 的预训练权重，负责文本理解与逻辑推理，实现视觉信息与语言指令的深度交互。

2）关键处理流程

视觉输入处理：对高分辨率视觉数据进行编码，生成结构化视觉 tokens，保留场景细节与时空关系。
latent 空间投影：通过 MLP 转换视觉表征，确保其与 LLM 输入空间兼容，同时保留核心特征。
输出生成：LLM 基于投影后的多模态信息，生成连贯、符合场景逻辑的决策或响应。

训练数据集构建

小米的MiMo-Embodied：整合自驾和具身任务，29项SOTA！图5

数据集涵盖三大类别，为跨领域能力提供基础支撑，具体分类如下：

1）通用数据集

基于 MiMo-VL 的训练语料，包含高分辨率图像、视频、长文本、图表等多元数据。
覆盖视觉定位、文档理解、视频时序推理、多模态逻辑推理等基础能力，构建通用视觉语言理解底座。

2）具身智能数据集

按核心能力分为三类：

可用性预测：整合 PixMo-Points、RoboAfford 等数据集，聚焦物体功能部位定位、交互可能性推理。
高级任务规划：基于 Cosmos-Reason1、EgoPlan-IT 等，训练从自然语言指令到可执行动作序列的转换能力。
空间理解：融合 SQA3D、VLM-3R 等，强化 3D 场景推理、空间关系判断、导航定位等能力。

3）自动驾驶数据集

按系统功能模块分为三类：

环境感知：包含 CODA-LM、DriveLM 等数据集，覆盖全景场景理解、区域目标识别、关键物体定位。
状态预测：基于 DriveLM、MME-RealWorld，聚焦交通参与者行为意图预测、多智能体交互建模。
驾驶规划：整合 IDKB、NuInstruct 等，训练安全驾驶动作决策与可解释性推理能力。

四阶段训练策略

科技前沿资讯：小米的MiMo-Embodied：整合自驾和具身任务，29项SOTA！图6

阶段 1：通用与具身知识学习

融合通用数据集与具身智能数据集，建立基础的可用性理解、任务规划与空间推理能力。
强调从细粒度物体定位到场景级空间关系的多尺度理解。

阶段 2：自动驾驶知识学习

在阶段 1 基础上，注入自动驾驶专用数据，强化动态环境理解、多视角空间推理、交通场景分析能力。
重点关注安全关键任务，如危险目标识别、交通参与者意图预测、复杂道路几何理解。

阶段 3：思维链（CoT）推理微调

对训练数据采样并生成结构化推理链，将复杂问题拆解为分步推理步骤。
增强模型逻辑连贯性与决策透明度，提升多步骤问题处理能力，尤其适用于安全关键场景。

阶段 4：强化学习（RL）微调

采用 Group Relative Policy Optimization（GRPO）算法，针对前序阶段识别的短板场景优化。
设计任务专属奖励信号（如空间定位任务的 IoU 指标、选择题的答案匹配度），提升输出精度与可靠性。

核心性能表现

小米的MiMo-Embodied：整合自驾和具身任务，29项SOTA！图7

小米的MiMo-Embodied：整合自驾和具身任务，29项SOTA！图8

1）具身智能基准测试（17项）

可用性预测：在 VABench-Point、Part-Afford 等 5 项基准中取得 SOTA，显著优于 Qwen2.5-VL、GPT-4o 等模型。
任务规划：在 RoboVQA 基准中表现突出，展现出强大的长程推理与因果推断能力。
空间理解：在 CV-Bench、RoboSpatial 等 9 项基准中领先，尤其擅长 3D 场景推理与空间语言定位。

2）自动驾驶基准测试（12项）

环境感知：在 CODA-LM、DRAMA 等基准中超越 RoboTron-Drive 等专用模型，支持多粒度场景理解。
状态预测：准确捕捉交通参与者个体意图与多智能体交互关系，在 MME-RealWorld 中表现优异。
驾驶规划：在 NAVSIM 公开基准与小米私有数据集上均实现最优性能，生成的轨迹更贴合人类驾驶逻辑，安全性与效率更优。

3）消融实验验证

单一领域训练（仅具身或仅自动驾驶）无法实现跨领域泛化，性能损失明显。
直接混合双领域数据训练会导致任务干扰，自动驾驶性能略有下降。
四阶段训练策略可实现两大领域能力协同提升，具身任务平均性能达 62.4%（较混合训练提升 4%），自动驾驶性能达 63.3%（较混合训练提升 8.1%）。

科技前沿资讯：小米的MiMo-Embodied：整合自驾和具身任务，29项SOTA！图9

科技前沿资讯：小米的MiMo-Embodied：整合自驾和具身任务，29项SOTA！图10

真实世界任务评测

科技前沿资讯：小米的MiMo-Embodied：整合自驾和具身任务，29项SOTA！图11

科技前沿资讯：小米的MiMo-Embodied：整合自驾和具身任务，29项SOTA！图12

科技前沿资讯：小米的MiMo-Embodied：整合自驾和具身任务，29项SOTA！图13

科技前沿资讯：小米的MiMo-Embodied：整合自驾和具身任务，29项SOTA！图14

更多评测&对比

科技前沿资讯：小米的MiMo-Embodied：整合自驾和具身任务，29项SOTA！图15

科技前沿资讯：小米的MiMo-Embodied：整合自驾和具身任务，29项SOTA！图16

科技前沿资讯：小米的MiMo-Embodied：整合自驾和具身任务，29项SOTA！图17

参考

[1] MiMo-Embodied: X-Embodied Foundation Model Technical Report

声明：内容取材于网络，仅代表作者观点，如有内容违规问题，请联系处理。

小米

more

小米汽车败诉，返还消费者10000元！

汽车行业早知道 2周前

小米汽车败诉，返还消费者10000元！

英伟达或对华出售H200，小米催收尾款案一审宣判，特斯拉因致命车祸在美被起诉，美载人登月或延至2028，这就是今天的其他大新闻！

差评X.PIN 2周前

英伟达或对华出售H200，小米催收尾款案一审宣判，特斯拉因致命车祸在美被起诉，美载人登月或延至2028，这就是今天的其他大新闻！

七年憋出个王炸！小米三折叠机曝光，能把价格打下来吗？

极果网 2天前

七年憋出个王炸！小米三折叠机曝光，能把价格打下来吗？

小米狂赚1131亿，雷军打了所有人的脸

科技头版 1周前

小米狂赚1131亿，雷军打了所有人的脸

上汽集团、比亚迪、吉利汽车、奇瑞汽车、赛力斯、小米汽车等23家中国车企2025年第三季度财报汇总

全球企业动态 1周前

上汽集团、比亚迪、吉利汽车、奇瑞汽车、赛力斯、小米汽车等23家中国车企2025年第三季度财报汇总

Netflix报827亿美元收购华纳；小米17 Ultra曝光；摩尔线程上市首日暴涨468%｜极客早知道

极客公园 1天前

Netflix报827亿美元收购华纳；小米17 Ultra曝光；摩尔线程上市首日暴涨468%｜极客早知道

【穿戴】小米手环/AI眼镜开启灰度更新眼镜还支持英语口语陪练？

小白测评 2周前

【穿戴】小米手环/AI眼镜开启灰度更新眼镜还支持英语口语陪练？

福特CEO盛赞小米：他们就是中国的苹果！

电车界 4天前

福特CEO盛赞小米：他们就是中国的苹果！

小米汽车败诉，雷军风格大变，一切都结束了

新行情 1周前

小米汽车败诉，雷军风格大变，一切都结束了

手机真实销量：只有苹果OV赢麻，小米华为却下跌了

21ic电子网 5天前

手机真实销量：只有苹果OV赢麻，小米华为却下跌了

Copyright © 2025 成都区角科技有限公司

蜀ICP备2025143415号-1

川公网安备51015602001305号