让机器人在「可变形世界模型」中练习:SIM1 打开数据 scaling 新路径(ECCV 2026)

具身智能之心 2026-06-30 11:02

点击下方卡片,关注“具身智能之心”公众号


机器人学习一直有一个朴素但困难的理想:如果真实交互太昂贵,能不能先为机器人构建一个足够可信的世界,让它在其中反复练习?但一旦进入真实机器人,世界模型就不再只是预测下一帧图像,而是要预测一次接触之后世界如何变化。抓起一件 T 恤、拉直一条毛巾、折叠一块布料,都会牵出几何、受力、摩擦、自碰撞和动作分布的连续耦合。

这正是机器人数据 scaling 最难跨过的地方:数据必须被执行出来,每一条轨迹背后都是硬件、场地、操作员、时间和安全成本。柔性物体进一步放大了这个矛盾:状态空间更大,真实采集更慢,有限示教更难覆盖决定成败的边界情况。

因此,问题不是「要不要仿真」,而是仿真能否足够接近真实交互。衣物形状不准,接触点就会错;物理响应不准,拉扯和褶皱就会错;动作分布不准,策略到了真实机器人上仍会失效。

来自上海人工智能实验室、被 ECCV 2026 接收的 SIM1,试图重新讨论这个判断。它不是单纯追求视觉真实感的仿真器,而是一个 physics-aligned real-to-sim-to-real 数据引擎:从少量真实示教出发,对齐真实柔性物体、机器人、场景和物理响应,再生成大规模、多样化、可执行的训练数据。最终,纯合成数据训练出的策略可以 zero-shot 部署到真实机器人上。


  • 论文地址:https://arxiv.org/abs/2604.08544

  • 项目主页:https://internrobotics.github.io/sim1.github.io/




01.

世界模型要服务机器人,

首先要能产生可执行经验

真实采集约 104 traj/day、$2.71/traj;SIM1 约 710 traj/day、$0.10/traj,对应 6.8x throughput increase 和 27x cost reduction。

从数据角度看,SIM1 首先交付的是一个可以持续产出训练样本的系统。视频中重要的不是某一次折叠是否漂亮,而是每段轨迹都包含机器人动作、物体形变、接触过程、视觉观察和任务结果。SIM1 生成的不是仿真演示,而是可以进入策略训练的数据。

这也是它和普通视觉仿真的分界线。对 VLA 或机器人策略模型来说,数据价值最终由执行结果检验:轨迹是否物理可行,接触是否成立,视觉变化是否和动作一致,策略能否迁移到真实硬件。SIM1 让真实数据负责校准世界,让仿真系统批量生成更广、更密、更可控的操作分布。


02.

为什么柔性物体长期被认为

很难 sim-to-real?


刚体任务中的 sim-to-real gap 往往还能被理解为「位置差一点」「摩擦差一点」「相机差一点」。但柔性物体的早期误差会在接触中被放大:抓取点稍微偏一点,受力路径、褶皱、垂坠和自碰撞都会改变,后续折叠、对齐和释放动作也会进入不同分布。

一次折衣服就是一条因果链。几何上,真实衣物有尺寸、厚度、边缘、褶皱和垂坠状态,不是理想平面;几何不准,抓取点就可能偏。物理上,布料被提起时受力沿表面传播,折叠时由弯曲、摩擦、自碰撞和桌面接触共同决定形态。动作上,柔性操作不是 pick-and-place,而是找边、抓取、抬起、拖拽、对齐、释放等细粒度决策,脚本很难覆盖人类示教中的关键调整。

所以,柔性物体上的 gap 是从几何到动力学再到行为分布的复合误差链。合成数据可以很多,但如果建立在错误接触、错误形变和错误动作分布之上,规模越大越可能把策略推向错误行为。这也是过去很多柔性物体仿真数据更适合 pretraining,却难以直接支撑 zero-shot deployment 的原因。


03.

SIM1:先把仿真对齐现实,

再把仿真变成数据引擎


让机器人在「可变形世界模型」中练习:SIM1 打开数据 scaling 新路径(ECCV 2026)图1

SIM1 采用 real-to-sim-to-real 范式:先把真实场景、衣物、机器人和物理行为带入仿真,使其成为被现实约束过的世界;再在其中大规模生成数据,训练可直接部署到真实机器人的策略。它不是让策略适应偏离现实的仿真器,而是先让仿真器对齐现实,再把它变成数据扩展器。

这种对齐被拆成三层:几何对齐,构建 metric-consistent digital twin;物理对齐,用 deformation-stable solver 和参数校准逼近真实交互;动作对齐,从少量示教中抽取操作片段,再用 diffusion model 生成可执行轨迹。三者共同决定合成数据是否真正有训练价值。


第一层对齐:把真实衣物和场景扫描进仿真


让机器人在「可变形世界模型」中练习:SIM1 打开数据 scaling 新路径(ECCV 2026)图2

在柔性物体任务中,几何不是背景信息,而是决定成败的核心变量。SIM1 通过高精度 3D 扫描获取真实衣物的几何和纹理,并经点云融合、分割、Poisson reconstruction、补洞、平滑、重网格化等处理,得到可用于仿真的 textured OBJ asset。目标不是「看起来像」,而是保留尺寸、形态、褶皱和纹理,因为衣物边缘、局部结构和初始褶皱都会影响抓取点和后续动作。

机器人本体通过 URDF 导入仿真环境,桌面等静态资产按真实尺寸和位置标定。这一阶段建立 metric-level 几何基础;没有这一层,后续物理求解和动作生成都会建立在错误接触关系上。


第二层对齐:让仿真真正「尊重布料物理」


两侧均抓取同一块布料左上角和右上角粒子并向上运动。左侧传统算法受力传播慢、局部拉伸失真;右侧 SIM1 动态启动黄色弹簧约束,加速形变收敛,整体运动更稳定。

布料在仿真中通常被离散成粒子点;点和点之间的连线可理解为约束或弹簧,用来传递作用力、保持距离并抵抗拉伸。当机器人抓住布料一角向上拉时,外力先作用在被抓粒子上,再通过连接传到周围粒子,最终带动整块布料运动。

传统 solver 中这种传播往往不够快。视频左侧同样抓取左上角和右上角粒子后,被抓区域先明显拉伸,局部形变被放大,整块布料没有立刻整体跟随。对机器人 teleoperation 和策略训练来说,仿真必须实时更新;受力传播滞后会直接变成过度拉伸、抖动、穿透和不真实接触。

SIM1 的 deformation-stable solver 在 Newton-VBD solver 基础上引入显式 strain constraint。当 cloth mesh 的局部边长拉伸超过阈值时,系统会动态启动额外约束力,即视频右侧的黄色弹簧。它们用于快速抑制不合理拉伸,让受力更稳定传播,并让布料更快收敛到整体运动,从而降低异常延展、抖动和数值不稳定。

SIM1 还会校准 cloth physical parameters,包括弹性、弯曲、strain limit、接触刚度、摩擦、自碰撞半径等。它不是凭经验手调参数,而是对比仿真操作视频和真实机器人操作视频,让抓取、拉伸、抬起和释放时的形变节奏与最终状态更接近真实。SIM1 不只追求 render realism,而是把 deformable dynamics 本身作为对齐对象。


第三层对齐:从少量示教生成大规模、人类风格的操作轨迹


左侧为三条 teleoperated demonstrations,marker 点表示抓取、抬起、对齐、释放等关键位置。生成新数据时,系统随机采样关键位置,再用生成式模型补足过渡轨迹。

有了对齐后的场景和物理,还要解决动作从哪里来。柔性操作很难完全依赖脚本,一次成功折叠通常包含找边、抓取、抬起或拖拽、移动、对齐、释放等结构化片段,不同阶段对位置、速度、接触和夹爪开合都有不同要求。

SIM1 从少量 teleoperated demonstrations 中抽取 grasp、lift、fold、release 等 interaction primitives。生成新数据时,系统先随机选取关键位置或片段,再用 diffusion-based trajectory generation 补足 transition trajectories,从而在保留操作语义的同时生成平滑、可行、多样化的动作序列。

生成轨迹会在仿真器中执行,并通过任务成功检查和 discriminator 过滤;只有物理可行、视觉合理的轨迹进入训练集。随后系统对同一底层物理轨迹做 appearance randomization,包括衣物材质、桌面材质、光照、视角等变化。少量 teleop 示教由此变成启动数据生成引擎的 seed。

04.

实验结果:仿真数据不只是 pretraining,而是可以直接监督真实部署


真实数据 baseline 与 SIM1 synthetic data 对比

SIM1 最核心的实验结论是:纯合成数据训练出的策略,可以 zero-shot 部署到真实机器人上。在 T-shirt folding 任务中,真实数据训练策略平均成功率为 97%;SIM1 合成数据训练策略达到 87%,在相同数据预算下只差约 10%。

更关键的是,基于 SIM1 的策略在真实机器人上达到 90% zero-shot success,并相对 real-data baseline 获得 +50% 泛化提升。在 π0 scratch setting 下,real-only 成功率为 0%,SIM1-only 达到 76%,泛化提升 +56%。这说明增益不只是来自预训练模型,而是来自更可扩展、更有覆盖度的数据分布。

一个重要信号:15 条合成样本约等价 1 条真实示教


论文中还有一个重要结果:约 15 条 SIM1 synthetic samples 可以提供与 1 条真实 demonstration 相当的训练价值。这不是说合成数据完全替代真实数据,而是说明 real-to-sim 对齐后,合成数据开始具备可量化的训练价值。

这对机器人数据 scaling 很重要:真实数据负责启动和校准数据生成系统,合成数据再以规模弥补单样本价值差距。对真实采集成本极高的柔性物体任务来说,这意味着模型可以接触更多初始状态、材质、扰动和失败边界。


从单一代表任务到跨物体泛化


多种衣物折叠的真实部署结果,成功率分别为t-shirt 90%、 towel 80%、shorts 93%、polo-shirt 93%。

为了验证方法不只适用于单一任务,论文还展示了 towel、shorts 和 polo-shirt 等场景。在 towel flipping 和 shorts folding 中,系统分别从每类 100 条 teleoperated demonstrations 出发,生成 1000 条带 texture randomization 的合成轨迹;真实机器人评估中,towel folding 达到 80%,shorts folding 达到 93%。

更有意思的是 polo-shirt folding。它与训练 garment 在几何、尺寸、材质和摩擦上都有差异,也没有类似实例出现在训练集中;策略仍在没有 task-specific demonstrations 的情况下达到 93% success,显示出跨物体泛化潜力。


结语


SIM1 并不是宣称真实数据不再重要。相反,它把真实数据放在更关键的位置:真实数据负责锚定世界,仿真负责扩展世界。少量真实示教可以被转化为对齐后的数字孪生、稳定的柔体物理系统和大规模合成轨迹,并训练出可 zero-shot 部署的策略。

对于机器人学习来说,这意味着一个更现实的 scaling 路径:不是无限增加真实采集,而是用真实世界校准可扩展的数据引擎。SIM1 给出的回答是:问题不在于仿真本身,而在于仿真是否足够尊重现实。当仿真开始尊重柔性物体的几何、物理和动作,它就可能成为机器人练习和获取经验的可变形世界模型。


END

 推荐阅读 :
让机器人在「可变形世界模型」中练习:SIM1 打开数据 scaling 新路径(ECCV 2026)图3

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
具身机器人拐点已至!这场论坛你不要错过!
如何用一组摄像头,养活一个机器人梦想
法拉第未来推出“全美首款工业级轮臂机器人”Faber
花99万买个仿生机器人谈恋爱, 贵吗?
OFweek:2026Q1工业机器人出货量约88000台,5月单月产量破10万!
本末科技通过港交所上市聆讯,构筑机器人三大集成化技术支柱
不再只是「会走路的双臂平台」:OpenHLM解放人形机器人的全身移动操作能力
全产业链资本化提速,2026 年机器人行业迎来 IPO 集中爆发期
刚刚,万元级个人机器人再升级!喊一声就跳英歌舞
近20家电机上市公司,谁吃到了人形机器人的第一口红利?
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号