具身智能迎来“视觉革命”,阿里达摩院RynnEC实现像素级交互理解,机器人从此“眼明心亮”!

AI生成未来 2025-08-27 09:19
点击下方卡片,关注“AI生成未来

如您有工作需要分享,欢迎联系:aigc_to_future

作者:Ronghao Dang等

解读:AI生成未来

资讯配图

论文链接:https://arxiv.org/pdf/2508.14160
Git 链接:https://github.com/alibaba-damo-academy/RynnEC

亮点直击

  • RynnEC,一个旨在增强机器人对物理世界理解能力的具身认知型多模态大语言模型。
  • 提出了一条数据生成流程,将自我中心的 RGB 视频转换为具身认知问答数据集。
  • 构建了一个细粒度的具身认知基准数据集 RynnEC-Bench,涵盖了 22 项物体与空间认知任务
  • 大量实验证明,在具身场景中的认知能力方面,RynnEC 显著优于通用型 MLLM(如 GPT-4o 等)和任务专用型 MLLM,展现出良好的可扩展应用潜力。

如下图 1 所示,RynnEC 是一个大型视频理解模型,其视觉编码器和基础参数来源于 VideoLLaMA3。资讯配图

本文还观察到 RynnEC 在多任务训练中表现出显著优势,并在更具挑战性的具身认知任务中展现出初步的“能力涌现”迹象。RynnEC 在帮助机器人执行大规模、长时程任务方面有巨大潜力。

总结速览

解决的问题

  1. 多模态大语言模型在具身智能中的应用受限

  • 当前主流 MLLM 多基于互联网图像训练,缺乏与真实物理世界匹配的视觉认知能力;
  • 缺乏适用于机器人在现实环境中执行任务的空间与物体理解能力。
  • 现有方法的局限性

    • 缺乏灵活的视觉交互方式(如遮罩、点选等);
    • 对物体的属性、数量、结构等理解不够细致;
    • 缺乏对视频中连续空间信息的建模能力;
    • 缺乏大规模、高质量的自我中心具身认知数据。

    提出的方案

    1. 设计统一的多模态视频大语言模型 RynnEC

    • 构建于 VideoLLaMA3 基础之上;
    • 引入区域编码器(Region Encoder)与 mask 解码器(Mask Decoder),支持区域级视频交互;
    • 支持细粒度的物体和空间认知任务。
  • 提出具身认知能力的双维度划分

    • 物体认知:理解物体属性、数量、位置及其与环境的关系;
    • 空间认知:包括世界中心视角与自我中心视角下的空间推理与尺度感知。
  • 构建数据生成流程

    • 从自我中心 RGB 视频出发,经过实例分割,生成物体认知与空间认知问答数据;
    • 构建大规模具身认知数据集。
  • 发布评估基准 RynnEC-Bench

    • 覆盖 22 项任务,系统评估模型在具身认知方面的综合能力。

    应用的技术

    1. 模型结构

    • 基于视频理解的多模态大语言模型;
    • 区域编码器 + mask 解码器,实现区域级视觉交互;
    • 支持端到端的物体定位与空间推理。
  • 数据生成与处理

    • 自我中心视频实例分割;
    • 自动生成问答式具身认知训练数据;
    • 多任务数据整合与标注质量控制。
  • 评估体系

    • 构建 RynnEC-Bench 基准集,涵盖多种具身认知任务;
    • 与通用型和任务专用型 MLLM 进行对比实验。

    达到的效果

    1. 性能领先

    • 在物体属性理解、物体分割和空间推理任务中达到当前最先进(SOTA)水平
    • 显著优于 GPT-4o 等通用 MLLM 和任务专用模型。
  • 模型紧凑、交互灵活

    • 架构紧凑,支持区域级视频交互;
    • 实现细粒度的实例级理解与定位。
  • 数据覆盖广泛,任务丰富

    • 使用来自 200+ 个家庭的 20,000+ 条视频;
    • 构建包含 22 项任务的高质量基准数据集。
  • 具备良好的扩展性与泛化能力

    • 在多任务训练中表现出“能力涌现”;
    • 为机器人执行复杂、长时程任务提供强大认知核心支持。

    方法

    RynnEC 是一个稳健的视频具身认知模型,具备处理和输出多种视频物体提议的能力,使其能够灵活应对关于物体与空间的具身问题。由于该领域研究相对匮乏,本文从四个方面全面介绍了 RynnEC 的构建过程:数据生成、评估框架构建、模型架构以及训练过程。

    具身认知数据生成

    本文的具身认知数据集构建(见下图2)始于自我中心视频的采集与实例分割。一条分支采用人类参与的流式生成方法,构建多样的物体认知问答对。另一条分支则利用单目稠密3D重建方法和多样化的问题模板,生成空间认知任务的问答对。

    资讯配图

    视频采集与实例分割

    本文采集的自我中心视频覆盖了200多个家庭,每个家庭大约采集100段视频。为确保视频质量,本文要求分辨率至少为1080p,帧率不低于30fps,并使用稳定器以保证拍摄稳定性。为了实现不同视频轨迹之间的多样性,每个家庭被划分为多个区域,拍摄轨迹被分为单区域、双区域和三区域类型。跨区域拍摄通过改变穿越区域的顺序提升了多样性。此外,本文在不同轨迹下随机变化光照条件和摄像头高度。本文要求每段视频包含垂直与水平旋转,并至少包含两个物体的特写镜头,以模拟机器人任务执行中的可变视野。最终,本文共采集了20,832段室内移动的自我中心视频。为控制视频长度,这些视频每40秒进行一次切分。

    以往的工作采用为每种任务类型分别设计数据生成流程的策略,导致数据复用性与连贯性有限。本文旨在在不同类型的基础数据之间建立关联,以减少数据生成中的不必要冗余。因此,本文提出了一种以遮罩为中心的具身认知问答生成流程。该流程从场景中视频实例分割生成的物体遮罩开始。首先,Qwen2.5-VL观察原始视频,并输出包含场景中所有实体类别名称的物体列表。利用该物体列表,Grounding DINO 1.5以每秒一个关键帧的频率检测物体。SAM2辅助分割并跟踪Grounding DINO 1.5在间隔的一秒内检测到的物体。为确保实例ID的一致性,将旧实例的跟踪结果与关键帧中新检测实例的分割结果进行比较。如果发现某个实例具有重叠遮罩(),则保留旧的跟踪实例ID。

    由于Grounding DINO 1.5的性能限制,新检测到的物体实例可能在前面的帧中已经出现但被漏检。因此,SAM2对关键帧中每个新物体进行向前4秒的实例反向跟踪,从而实现完整生命周期的实例追踪。最终,本文从所有自我中心视频中共获得了114万个视频实例遮罩。

    物体问答生成

    在本工作中,生成了三类与物体相关的任务:物体描述、物体理解问答以及指代视频物体分割。对于每个实例,本文首先将包含该实例的所有帧按时间顺序平均划分为八组。在每组帧中,基于两个因素选择一个实例关键帧:实例在帧中的尺寸,以及实例中心与帧中心之间的距离。因此,每个实例对应八个实例关键帧,具备良好的可见性和多样的视角。其中一半帧中通过遮罩裁剪出该实例,另一半则使用红色边框和背景变暗技术突出显示该实例。最终的一组物体提示图像展示于上图2中的蓝色框中。

    由于SAM2在自我中心视频中的物体跟踪一致性有限,当一个实例在视频中间歇性出现时,可能会被分配多个ID。本文采用物体类别过滤方法,将每类物体在每段视频中限制为最多两个实例,从而最小化重复实例的数量。每个家庭中存在多个视频片段,导致某些显著物体重复出现,形成明显的长尾分布。对频繁出现的物体类别进行下采样,以防止物体分布极端化。经过上述过滤后,保留实例的提示图像集被输入至 Qwen2.5-VL,通过多种提示词生成物体描述与物体理解问答。值得注意的是,在物体理解问答中,计数类问题具有特殊性,需要专门设计的提示词。

    随后,基于每个实例的描述和问答,Qwen3 生成两类指代表达:简单指代表达和情境指代表达。简单指代表达通过空间位置与类别等特征组合来识别物体。情境指代表达则建立一个任务场景,要求模型在该上下文中推理出用户所需的实例。每类问答在输出后都经过人工筛选以确保数据质量。

    空间问答生成

    与物体问答不同,空间问答需要更精确的全球场景上下文的三维信息。因此,本文采用 MASt3R-SLAM 从RGB视频中重建三维点云,并获取相机外参。随后,通过将2D像素点投影至3D坐标,视频中每个实例的分割结果可以映射到点云上。

    然而,需要注意的是,MASt3R-SLAM为三维点云建立的世界坐标系并未与地面对齐。因此,本文使用随机采样一致性算法()进行十次迭代,识别内点以进行平面拟合。在每次迭代中,检测到的平面及其内点会从点云中移除,以便进行下一次平面检测。鉴于初始相机姿态大致为水平但未垂直于地面,本文根据法向量与初始相机轴方向之间的最小角度偏差来选择地面平面。随后对点云进行对齐,确保世界坐标系轴与检测到的地面平面正交。

    RynnEC 数据集涵盖 10 种基本空间能力,每种能力进一步分为定量和定性两类。本文采用模板化方式构建空间问答。根据每项任务的特征设计多样的问答模板,模板中缺失的属性(例如距离、高度)可以从三维点云中计算获得。本文以格式 Object X 表示每个实例。

    此外,为获得纯文本形式的空间问答对,本文将 Object X 替换为上述物体问答流程中生成的简单指代表达。这些文本随后通过 GPT-4o 进一步润色和多样化,最终形成自然语言形式的空间问答数据。通过对这些数据的训练,RynnEC 能够以多种输入形式回答空间问题。生成的空间问答示例如上图 2 所示。

    基于以往工作的洞见,本文认识到空间认知任务极具挑战性。因此,除了构建大规模的视频空间问答数据集外,本文还开发了一个相对简单的图像空间问答数据集。这种包含不同难度任务的组合旨在提高学习效率并增强模型的鲁棒性。具体而言,本文从  个房屋中收集了  张室内图像。借助 SpatialRGPT 中的单图像三维重建与校准方法,本文获得了每张图像中物体之间的三维空间关系。随后,本文从基于视频的空间认知任务集中选择也可通过单张图像完成的任务,并设计相应的问答模板。图像空间问答的格式与视频空间问答保持一致。

    RynnEC-Bench

    由于本工作首次提出了全面的细粒度具身视频任务集,目前尚缺乏用于评估多模态大模型(MLLM)在该领域整体能力的稳健评估框架。为此,本文提出了 RynnEC-Bench,从物体认知与空间认知两个维度,在开放世界场景中评估细粒度具身理解模型的能力。下图 3 展示了 RynnEC-Bench 中的能力分类体系。

    资讯配图

    能力分类体系

    物体认知被划分为两个任务:物体属性认知与指代物体分割。在具身任务执行过程中,机器人常常需要清晰理解关键物体的功能、位置、数量、表面细节、与周围环境的关系等。因此,物体属性识别任务在这些方面构建了全面且细致的问题。

    在机器人操作与导航过程中,识别操作实例与目标实例是关键步骤。在视频中进行精确的实例分割是指示这些关键物体位置的最佳方式。具体而言,指代物体分割任务被划分为直接指代问题与情境指代问题。直接指代问题仅包含对实例的描述组合,而情境指代问题则设定在特定场景中,要求多模态大模型进行推理以识别目标物体。

    空间认知要求多模态大模型(MLLM)从第一人称视频中推导出三维空间意识。本文将其划分为自我中心空间认知和世界中心空间认知。自我中心空间认知保持对代理体与环境之间空间关系的感知,并支持空间推理与心理模拟;在时间范围上,本文考虑过去、现在和未来三种情况。世界中心空间认知则关注对物理世界三维布局与尺度的理解,本文进一步从尺寸、距离和位置关系三个方面进行评估。

    数据平衡

    RynnEC-Bench 中的视频采集自十个与训练集不重叠的住宅。在评估物体认知时,本文观察到不同住宅之间的物体类别分布存在显著差异,使得评估结果对选取的住宅高度敏感。为减轻这种偏差并更好地反映真实部署情况,本文引入了基于物理世界的评估协议。本文首先定义了一个包含  个粗粒度类别和  个细粒度类别的室内物体分类体系。随后,使用 GPT-4o 对来自  个住宅的  张室内图像进行解析,估计经验物体类别频率分布;由于数据规模庞大,这一分布可作为真实室内物体频率的近似值。最后,本文进行按频率比例的采样,使 RynnEC-Bench 中的物体类别分布尽可能贴近经验分布,从而实现更加客观和现实的评估。具体而言,对于答案为  或  的计数类问题,本文减少了 ,以实现更平衡的难度分布。RynnEC-Bench 中的所有问答对均经过严格的人类筛选,以确保高质量。

    评估框架

    问题根据答案性质被划分为三类:数值问题、文本问题和分割问题。对于如距离估计和方向估计等数值问题,本文直接使用公式计算精确指标。对于尺度相关的问题,采用平均相对准确率(Mean Relative Accuracy, MRA)进行评分。具体而言,给定模型预测 、真实值  和置信度阈值 ,当相对误差率 。小于  时,认为该预测是正确的。由于单一置信度阈值下的准确率仅考虑了狭窄范围内的相对误差,MRA 计算在一组置信度阈值  上的平均相对准确率。

    资讯配图其中  是指示函数。对于角度相关的问题,由于角度测量具有循环性,MRA 并不适用。因此本文设计了一种旋转准确率指标(Rotational Accuracy, RoA)。

    资讯配图RoA 仅在角度差小于  度时赋予分数,以确保在不同设置下任务难度的一致性。

    文本类问题进一步分为封闭式问题和开放式问题。对于封闭式部分,本文使用 GPT-4o 给出简单的二元评分,分数为  或 。对于开放式部分,答案由 GPT-4o 按  为步长,在  到  的范围内进行评分。这种针对问题类型自适应的评估方法,使得 RynnEC-Bench 的评估指标既精确又一致。

    对于分割评估,以往的工作通常报告 J & F 指标,该指标结合了区域重叠()和边界准确率()得分。然而,传统的帧平均 J & F 方法以二元方式处理空帧(即没有真实 mask 的帧):如果出现任何预测 mask ,则该帧得分为 ;否则为 。这种评估方法未能考虑空帧中错误 mask 的实际大小,而这可能对具身分割任务产生显著影响。为了解决这一问题,本文提出了全局 IoU 指标(Global IoU),其定义为:

    资讯配图其中  表示视频的总帧数, 表示第  帧的预测分割 mask , 表示第  帧的真实 mask 。对于边界准确率指标 ,本文仅在非空帧上计算平均值。 和  的均值,记作 ,能够准确反映分割质量,特别是在目标物体仅出现在少数帧的第一人称视频中。

    RynnEC 架构

    RynnEC 由三个核心组件组成:用于基础多模态理解的视觉-语言基础模型、用于细粒度以物体为中心的表示学习的区域感知编码器、用于视频分割任务的自适应 mask 解码器。值得注意的是,后两个模块被设计为即插即用组件,具有独立的参数空间,从而保证架构的灵活性和模块化扩展性。

    视觉-语言基础模型  本文使用 VideoLLaMA3-Image 作为 RynnEC 的视觉-语言基础模型,该模型包含三个主要模块:视觉编码器、投影器和大语言模型(LLM)。视觉编码器采用 VL3-SigLIP-NaViT,它利用任意分辨率视觉标记策略,能够灵活地编码不同分辨率的图像。作为 LLM,本文使用 Qwen2.5-1.5B-Instruct 和 Qwen2.5-7B-Instruct,以实现性能与计算成本之间的可扩展权衡。

    区域编码器  第一人称视频常包含混乱场景,其中存在大量相似物体,仅依靠语言线索难以区分。为了解决这一问题,本文引入了专用的物体编码器,用于特定物体的表示学习。这有助于在训练过程中实现更精确的跨模态对齐,并在推理阶段实现直观、细粒度的人机交互。本文采用简单而高效的 MaskPooling 进行物体标记化,随后使用一个两层投影器将物体特征对齐到 LLM 的嵌入空间。在训练过程中,利用跨多帧的视频物体 mask 以获得准确表示。在推理阶段,该编码器具有灵活性,既支持单帧也支持多帧的物体 mask 。

    Mask 解码器  准确的物体定位对于第一人称视频理解至关重要。为在不损害模型预训练性能的前提下引入强大的视觉定位能力,本文使用 LoRA 对 LLM 进行微调。本文的 mask 解码器基于 SAM2 架构,该架构在纯视觉分割任务中展现出良好的泛化能力和先验知识。对于给定的视频和指令,本文采用一个特殊的 [SEG] 标记作为触发器,用于生成对应视觉区域的 mask 。为支持该过程,本文引入了一个额外的线性层,用于将 [SEG] 标记对齐到 SAM2 的特征空间。

    训练与推理

    如下图 4 所示,RynnEC 的训练采用一个渐进式的四阶段流程:1) mask 对齐,2)物体理解,3)空间理解,4)指代分割。前三个阶段旨在逐步增强细粒度、以物体为中心的理解能力,而最后一个阶段则专注于赋予模型精确的物体级分割能力。该基于课程的训练方法确保了视觉、空间与定位知识的逐步整合,避免过拟合于单一任务。各阶段使用的数据集在下表 1 中进行了总结。

    资讯配图

    各阶段的训练细节如下:

    1)Mask 对齐  该初始阶段的目标是鼓励模型关注区域特定的标记,而不仅仅依赖全局视觉特征。本文在一个大规模的物体级图文描述数据集上微调区域编码器和 LLM,其中每条描述都明确对应一个特定的物体 mask 。该对齐训练使模型学会将以物体为中心的嵌入与相应的语言描述关联起来,为后续阶段的局部推理奠定基础。

    2)物体理解  在此阶段,重点转向丰富模型的第一人称物体知识,包括颜色、形状、材质、大小和功能属性等。区域编码器与 LLM 联合微调,以更有效地将这些物体级信息整合进跨模态嵌入空间。该阶段是空间理解的基础。

    3)空间理解  在前一阶段的基础上,此阶段赋予模型空间推理能力,使其能够理解并推理场景中物体的相对位置和排列结构。本文使用大量生成的空间问答数据、前一阶段的数据以及通用 VQA 数据,以保持模型的指令遵循能力。

    4)指代分割  在最后阶段,本文在 LLM 之后集成 mask 解码器模块,使模型具备细粒度的指代分割能力。通过 LoRA 微调 LLM,以最小化对其预训练推理能力的干扰。训练数据不仅包含分割特定的数据集,还包括前几个阶段的样本,以缓解灾难性遗忘问题。该多任务混合策略确保在提升分割性能的同时,不牺牲模型的物体与空间理解能力。

    实验

    实现细节

    训练

    本节简要介绍每个训练阶段的实现细节。所有阶段均采用余弦学习率调度器,学习率的预热比例设为 。最大 token 长度设为 ,其中视觉 token 的最大长度为 

    在阶段 1 中,视觉编码器和 LLM 均使用来自 VideoLLaMA3-Image 的预训练权重进行初始化。在该阶段,本文训练 LLM、投影层(projector)和区域编码器,其学习率分别为  和 

    在阶段 2 和阶段 3 中,LLM、投影层和区域编码器的学习率分别调整为  和 

    在最后一个阶段,LLM 使用 LoRA 进行微调,学习率与阶段 3 相同。 mask 解码器(Mask Decoder)的学习率设为 

    评估

    本文在 RynnEC-Bench 上对五类 MLLM 进行了全面评估,涵盖通用模型以及针对区域级理解和分割任务微调的模型。对于不支持直接输入区域信息的模型,本文统一使用边界框在视频中高亮目标物体。多个物体使用不同颜色的边框进行区分,并在问题提示中进行引用。

    本文观察到,通用型 MLLM 无法在视频中定位物体,因此仅对具备此能力并经过微调的专业模型在 RynnEC-Bench 的分割子集上进行评估。

    为确保评估协议一致,视频以  fps 的速率采样,最多采样  帧。如果初始采样超过  帧,则保留包含目标的帧,其余帧从视频中剩余部分进行均匀采样。

    具身认知评估

    主要结果

    下表 2 展示了本文提出的 RynnEC 模型以及五类相关 MLLM 在 RynnEC-Bench 上的评估结果。尽管 RynnEC 模型仅包含 B 参数,但它展现出强大的具身认知能力,性能甚至超过了最先进的闭源模型 Gemini-2.5 Pro,领先  分。同时,RynnEC 在各类任务中表现出均衡且优越的性能。

    资讯配图

    在物体认知方面,RynnEC 获得了  的得分,具备理解与分割物体的能力。在空间认知方面,RynnEC 得分为 ,比 Gemini-2.5 Pro 高出 。为支持资源受限的环境,本文还提供了一个参数量为 B 的 RynnEC 版本,其推理延迟显著降低,同时性能几乎保持一致(性能下降小于  个百分点),支持具身应用的本地部署。

    在接下来的部分中,本文将详细介绍不同类型 MLLM 在 RynnEC-Bench 上的表现。

    闭源通用型 MLLM  在评估的四个领先的闭源通用型 MLLM 中,Gemini-2.5 Pro 以总分  明显领先。这一成绩比最佳开源通用型 MLLM 高出 ,比最强的开源物体级 MLLM 高出 。更值得注意的是,它在空间认知这一公认难度极高的领域中获得了  的高分。这一发现有力地表明,空间感知能力可能是在大规模视频理解训练中自然涌现的副产物。

    开源通用型 MLLM  Qwen2.5-VL-72B 表现出色,得分为 ,超过了 GPT-4.1。这表明,在具身认知等专业能力方面,开源 MLLM 与闭源模型之间的差距已显著缩小。此外,本文观察到 Qwen2.5-VL 和 InternVL3 在位置关系(PR)和距离感知任务中表现优越,甚至超过了 Gemini-2.5 Pro。这些在空间认知不同方面的显著差异可能归因于训练数据的分布差异。

    开源物体级 MLLM  这类模型能够接受区域 mask 作为输入,从而实现更直接的目标物体定位,并促进更细粒度的物体感知。VideoRefer-VL3-7B 是从基础模型 VideoLLaMA3-7B 微调而来。如表 2 所示,VideoRefer-VL3-7B 在物体认知和空间认知任务中均持续优于 VideoLLaMA3-7B。这表明,在具身场景中,将 mask 理解能力整合进模型比显式的视觉提示更具优势。指代视频物体分割 MLLM  近期,多项研究将 MLLM 应用于物体分割任务,同时保留 MLLM 原有的多模态理解能力。然而,表现最好的模型 RGA3-7B 在物体属性任务上的得分仅为 。尽管这些 MLLM 仍能处理部分通用视频理解任务,但它们在完成分割训练后,其任务泛化能力显著下降。相比之下,本文专为具身场景设计的 RynnEC 模型,即使在完成分割训练后,仍保持了强大的物体与空间理解能力。

    开源具身 MLLM  随着具身智能领域对高度泛化认知能力的需求不断增长,已有多项研究开始开发专门面向具身场景的 MLLM。一个代表性模型是 RoboBrain-2.0,其得分为 ,甚至低于通用视频模型如 VideoLLaMA3-7B。造成这一结果的主要原因有两点:
    (1) 物体认知能力丧失:具身 MLLM 通常强调空间感知与任务规划能力,但往往忽视了对物体细节理解的重要性。
    (2) 感知能力不够细致:在第一视角视频中,RoboBrain-2.0 在区域级特征解释方面表现有限。

    物体认知

    下图 5 (a) 从多个维度展示了 RynnEC 在物体属性认知方面的综合评估。由于大多数物体属性认知能力包含在通用视频理解技能中,Gemini-2.5-Pro 在多个能力项上表现优越。然而,考虑到具身 MLLM 的边缘部署需求,这些大规模模型的推理速度成为瓶颈。RynnEC 仅使用 B 参数,即可在大多数类别中实现与 Gemini-2.5-Pro 相当的物体属性认知能力。尤其是在表面细节、物体状态和物体形状等属性上,RynnEC-2B 甚至超过了所有其他 MLLM。

    资讯配图

    此外,大多数 MLLM 缺乏视频物体分割能力,而专用于分割的 MLLM 又常常牺牲理解能力。RynnEC 在保持强大理解能力的同时,在直接指代与情境指代物体分割任务中,分别相较最先进的分割 MLLM 提升了  和 

    空间认知

    下图 5 (b) 通过更细粒度的任务展示了 RynnEC 的空间认知能力。由于空间能力在以往工作中尚未被正式定义或系统性探索,不同的 MLLM 通常仅在特定技能上表现突出。总体而言,空间想象(Spatial Imagery)、运动想象(Movement Imagery)和轨迹回顾(Trajectory Review)等空间认知能力在以往 MLLM 中普遍缺失。相比之下,RynnEC 拥有更全面的空间能力,可帮助具身智能体在复杂环境中建立空间意识。

    泛化能力与可扩展性

    为了研究 RynnEC 的泛化能力,本文在 VSI-Bench 上进行了实验,该基准是一个纯文本的空间智能评估基准。如下图 6 所示,RynnEC-7B 在几乎所有能力维度上持续超越 VideoLLaMA3-7B。值得注意的是,RynnEC 的训练采用了以 mask 为中心的空间感知范式,而 VSI-Bench 中的所有任务均涉及纯文本的空间推理。这表明空间感知能力不必受限于表征模态,空间推理能力可以在不同模态之间有效迁移。进一步观察发现,RynnEC 在路线规划任务上表现出显著的性能提升,尽管该任务并未包含在训练中。这表明具身智能体的导航性能目前受限于基础的空间感知能力,例如对方向、距离和空间关系的理解。只有具备强大的基础空间认知能力,具身大模型才能在高层次的规划与决策任务中获得优异表现。与其他相似规模的具身 MLLM 相比,RynnEC-7B 还在 VSI-Bench 上取得了领先的  分。

    资讯配图

    某些任务,如物体分割与运动想象,仍然对 RynnEC 构成显著挑战。本文假设这些任务表现不佳主要源于训练数据不足。为验证这一点,本文对不同任务类别的数据可扩展性进行了实证分析。随着数据量从  逐步增加至 ,模型在所有任务上的表现都稳步提升。这一观察结果促使本文进一步扩展数据集,以增强 RynnEC 的空间推理能力。然而值得注意的是,随着数据量的增长,边际收益逐渐减少,表明规模扩展的回报递减。如何提升数据多样性以维持这种扩展趋势,仍是未来研究中亟待解决的关键挑战。

    具身应用

    近期,一些研究尝试将 MLLM 作为“智能大脑”用于辅助机器人完成规划任务、感知环境与做出决策。然而,当前的 MLLM 缺乏关键能力,如空间感知、细粒度感知与实例定位,这使得相关应用仅限于简单任务。如下图 7 所示,RynnEC 展示了在复杂环境中辅助机器人完成长时序任务的潜力。

    资讯配图

    从两个由搭载 RynnEC 的机器人执行的实时任务中,本文观察到 RynnEC 在任务执行中发挥了以下作用:
    (1) 细粒度的物体定位与理解,使机器人能够更快速地识别目标物体并评估其状态;
    (2) 目标方向与距离的感知,提升了导航效率与精度;
    (3) 空间尺度估计,使机器人能够执行更精细的操作;
    (4) 计数能力,有助于完成需要数学推理的任务。

    需要强调的是,RynnEC 在具身任务中的作用远不止于这些示例。本文希望有更多研究者将 RynnEC 模型集成到各类机器人系统中,从而推动具身智能在现实世界中实现更有价值的应用。

    结论与未来工作

    RynnEC,这是一种用于具身认知的视频多模态大语言模型(Video MLLM)。通过区域编码器与 mask 解码器的架构设计,RynnEC 实现了灵活、细粒度的视觉交互。同时,RynnEC 在紧凑模型规模下展现出稳健的物体与空间认知能力。为了解决现有场景数据的局限性,本文采用了一种仅依赖 RGB 视频的数据生成流程。此外,为了弥补细粒度具身认知基准的缺失,本文提出了 RynnEC-Bench,涵盖了 22 类物体与空间认知能力。在训练过程中,RynnEC 通过四阶段能力注入流程逐步整合多样技能。重要的是,本文主张基于视频的细粒度视觉理解是实现物理世界中可泛化认知的关键。RynnEC 将使机器人能够完成更精确的认知任务,从而推动具身智能的实际发展。

    将 RynnEC 视为通用具身智能模型发展的基础性一步。展望未来,本文计划从两个主要方向进一步推进 RynnEC:

    • 增强推理能力:稳健的视觉推理对于解决任何复杂的具身任务至关重要。一个重要的研究方向是如何有效整合 RynnEC 的多种能力以执行联合推理,从而实现更高层次的具身问题求解。

    • 统一的感知与规划框架:近期研究已开始探索训练统一的具身智能模型,将感知与规划结合在一起。然而,这些方法在支持细粒度、基于视频的视觉交互方面仍存在限制。未来本文希望赋予 RynnEC 更灵活的规划能力,并将其与 VLA 模型集成,构建一个闭环的具身系统。

    参考文献

    [1] RynnEC: Bringing MLLMs into Embodied World

    致谢

    如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!



    技术交流

    加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

    资讯配图

    声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
    机器人
    more
    英伟达新款“机器人大脑”以3499美元开售,将加大机器人领域市场投入 | 区势·AI
    快讯|英伟达发布最强机器人芯片Jetson AGX Thor,FieldAI获2亿美元融资,湖北宜昌打造AI化学机器人首次出海
    「摩根士丹利」人形机器人最新研报:趋势分析和主流价值链公司梳理(附报告)
    爆料:VC想见创始人 被要求先交5000元“交流费” 机器人赛道资本风向变了?
    【WRC专家观点】卡塔尔皇室办公室特别顾问塔哈·穆罕默德:《从海湾到全球:卡塔尔的AI与机器人未来》
    专访北京人形机器人创新中心唐剑:人形机器人产业落地必须“全自主”
    90秒做拉花咖啡,「AI智慧零售机器人」融资数千万丨早起看早期
    知名机器人公司宇树科技确认参展 2025大湾区国际具身智能机器人产业大会暨展览会智聚湾区,决胜未来!
    服装、康养、物流三大赛道,或成为具身智能机器人落地先行区
    汽车+机器人Tier1赛道再进阶,均胜电子与阿里云达成AI全面合作
    Copyright © 2025 成都区角科技有限公司
    蜀ICP备2025143415号-1
      
    川公网安备51015602001305号