中科院自动化！EmbodiedCoder：生成模型的参数化具身移动操作

一、研究背景

在机器人领域，让机器人在复杂、非结构化环境中像人类一样熟练完成多样化任务，是长期核心目标。近年来，视觉-语言-动作（VLA）模型通过端到端映射感官输入与自然语言指令到机器人动作，推动了这一目标的落地，但仍存在显著局限：

为解决这些问题，研究人员提出分层策略，利用视觉-语言模型（VLM）将任务分解为子任务，并调用预定义操纵原语（如导航、抓取）。但这类方法受限于原语库，无法处理开门、拉抽屉等需要精细交互的真实场景任务——这类任务难以被有限的预定义原语覆盖。

此前基于代码生成的尝试也存在不足：早期方法仅适用于简单几何任务；部分方法依赖学习模型处理物理约束，降低对新场景的适应性；还有方法无法处理接触密集型操纵，或仅聚焦于故障检测而非扩展操纵能力。针对移动机器人，还需解决环境信息留存、非视野内物体规划等更复杂的挑战。

本研究提出的EmbodiedCoder是一种无训练框架，核心创新围绕“用代码连接感知与操纵”展开，具体包括三点：

无训练的开放世界适配：无需额外数据收集或微调，通过编码模型直接生成可执行轨迹代码，摆脱对预定义原语和大规模数据集的依赖，降低部署成本。
功能化几何参数化方法：将任务相关物体的点云拟合为几何基元（如将门拟合为带旋转轴的矩形、苹果拟合为球体），不仅捕捉物体整体结构，还提取功能组件（如门把手、抽屉滑轨），为轨迹规划提供结构化依据。
代码驱动的轨迹合成与缓存：基于几何参数生成满足物理、环境、硬件约束的参数化轨迹（如圆弧、贝塞尔曲线）；同时引入代码缓存机制，复用已生成的可靠代码，平衡“已知任务效率”与“新任务泛化”。

EmbodiedCoder的系统流程分为三大模块，整体框架如Fig.2所示，核心是通过代码将高-level指令转化为低-level操纵动作。

将移动操纵任务形式化为带约束的运动规划问题，映射关系如下：

其中：

该模块的目标是将原始感官数据转化为“任务相关的结构化信息”，分为两步：

任务分解与目标中心化理解：

VLM结合语义地图，将总指令分解为子任务（如“开门→取水瓶→倒水”）；
对每个子任务，VLM识别相关物体，推断其适配的几何形状（如抽屉为长方体、门把手为圆柱体），并通过SAM生成物体掩码，投影得到“仅包含目标物体”的语义点云，为后续参数化做准备。

该模块是框架的核心，通过编码模型生成代码，完成“几何参数化”与“轨迹合成”，具体分为三个阶段：

输入子任务相关的物体点云，编码模型生成代码将点云拟合为几何基元，同时提取功能参数。例如：

门的参数化：将门拟合为矩形（需估计中心、长宽、法向量），门把手拟合为圆柱体（需估计中心、半径、轴线方向），并推断铰链轴位置与旋转半径（如Fig.3的代码示例）；

deformable物体（如抹布）：通过极值点构建边界包围盒，而非刚性基元拟合。
参数化结果将非结构化点云转化为紧凑的结构化表示（如苹果→“球体（中心+半径）”，抽屉→“长方体（中心+长宽高+滑动方向）”），示例见Fig.4。

基于几何参数，编码模型生成代码，合成满足多约束的轨迹，约束包括：

物理约束（如门绕铰链旋转、抽屉沿滑轨滑动）；
环境约束（避障、门开启宽度需允许机器人通过）；
硬件约束（机器人关节运动范围）。
轨迹以参数化曲线（如贝塞尔曲线、圆弧）表示，再采样离散路径点供机器人执行。例如“将苹果放入抽屉并避障”任务中，代码会生成带避障控制点的贝塞尔曲线，确保抓取苹果后绕开周围障碍物（如Fig.5的代码示例）。

对熟悉物体（如常见水瓶、抽屉）或重复子任务，复用已验证的代码，减少生成延迟与错误；对新物体/任务，重新调用编码模型生成代码。随任务执行，系统会积累可复用的技能库，逐步提升效率。

机器人按子任务顺序执行：先导航至目标位置，再根据EmbodiedCoder生成的轨迹采样路径点，控制机械臂完成操纵（如抓取、旋转、放置），最终实现从“视觉-语言输入”到“动作输出”的闭环。

实验基于AgileX Cobot S机器人（搭载RealSense D455相机），用Qwen-2.5VL（7B）做语义 grounding 与任务分解，ClaudeSonnet-4生成参数化与轨迹代码，验证“长期任务性能”“简单任务泛化”“模块有效性”。

设计5项多步任务（如“从门边桌子取水瓶并倒入碗中”“将网球从第一张桌子移到第三张桌子的粉色碗中”），重复20次，对比DovSG：

在VLA模型的OOD基准任务上对比（如“抓取百事罐”“将苹果放在盘子上”“倒水”）：

物体形状对抓取的影响：对比AnyGrasp，EmbodiedCoder在各类物体上的抓取成功率更高（如塑料瓶100% vs 95%，易拉罐75% vs 40%，Table V），因参数化能结合 gripper 运动学约束（如球体沿径向对齐 gripper，圆柱体沿主轴选择接触点）；
语义地图对任务分解的影响：Table VI显示，Qwen-7B在提供2D语义地图时，子任务分解成功率从72%提升至88%，因地图帮助模型对齐真实环境，减少规划幻觉（如“先导航到门口再开门”）；
编码模型能力的影响：Fig.7显示，Claude-Sonnet-4的代码“完整率”（生成可执行代码）和“有效率”（代码完成任务）最高，但延迟较大；其他模型（如Qwen3-Coder、Kimi-k2）表现显著较差，说明仅最新编码模型具备足够的推理能力支撑任务。