让机器人在「可变形世界模型」中练习：SIM1 打开数据 scaling 新路径（ECCV 2026）

点击下方卡片，关注“具身智能之心”公众号

机器人学习一直有一个朴素但困难的理想：如果真实交互太昂贵，能不能先为机器人构建一个足够可信的世界，让它在其中反复练习？但一旦进入真实机器人，世界模型就不再只是预测下一帧图像，而是要预测一次接触之后世界如何变化。抓起一件 T 恤、拉直一条毛巾、折叠一块布料，都会牵出几何、受力、摩擦、自碰撞和动作分布的连续耦合。

这正是机器人数据 scaling 最难跨过的地方：数据必须被执行出来，每一条轨迹背后都是硬件、场地、操作员、时间和安全成本。柔性物体进一步放大了这个矛盾：状态空间更大，真实采集更慢，有限示教更难覆盖决定成败的边界情况。

因此，问题不是「要不要仿真」，而是仿真能否足够接近真实交互。衣物形状不准，接触点就会错；物理响应不准，拉扯和褶皱就会错；动作分布不准，策略到了真实机器人上仍会失效。

来自上海人工智能实验室、被 ECCV 2026 接收的 SIM1，试图重新讨论这个判断。它不是单纯追求视觉真实感的仿真器，而是一个 physics-aligned real-to-sim-to-real 数据引擎：从少量真实示教出发，对齐真实柔性物体、机器人、场景和物理响应，再生成大规模、多样化、可执行的训练数据。最终，纯合成数据训练出的策略可以 zero-shot 部署到真实机器人上。

论文地址：https://arxiv.org/abs/2604.08544
项目主页：https://internrobotics.github.io/sim1.github.io/

01.

世界模型要服务机器人，

首先要能产生可执行经验

真实采集约 104 traj/day、$2.71/traj；SIM1 约 710 traj/day、$0.10/traj，对应 6.8x throughput increase 和 27x cost reduction。

从数据角度看，SIM1 首先交付的是一个可以持续产出训练样本的系统。视频中重要的不是某一次折叠是否漂亮，而是每段轨迹都包含机器人动作、物体形变、接触过程、视觉观察和任务结果。SIM1 生成的不是仿真演示，而是可以进入策略训练的数据。

这也是它和普通视觉仿真的分界线。对 VLA 或机器人策略模型来说，数据价值最终由执行结果检验：轨迹是否物理可行，接触是否成立，视觉变化是否和动作一致，策略能否迁移到真实硬件。SIM1 让真实数据负责校准世界，让仿真系统批量生成更广、更密、更可控的操作分布。

02.

为什么柔性物体长期被认为

很难 sim-to-real？

刚体任务中的 sim-to-real gap 往往还能被理解为「位置差一点」「摩擦差一点」「相机差一点」。但柔性物体的早期误差会在接触中被放大：抓取点稍微偏一点，受力路径、褶皱、垂坠和自碰撞都会改变，后续折叠、对齐和释放动作也会进入不同分布。

一次折衣服就是一条因果链。几何上，真实衣物有尺寸、厚度、边缘、褶皱和垂坠状态，不是理想平面；几何不准，抓取点就可能偏。物理上，布料被提起时受力沿表面传播，折叠时由弯曲、摩擦、自碰撞和桌面接触共同决定形态。动作上，柔性操作不是 pick-and-place，而是找边、抓取、抬起、拖拽、对齐、释放等细粒度决策，脚本很难覆盖人类示教中的关键调整。

所以，柔性物体上的 gap 是从几何到动力学再到行为分布的复合误差链。合成数据可以很多，但如果建立在错误接触、错误形变和错误动作分布之上，规模越大越可能把策略推向错误行为。这也是过去很多柔性物体仿真数据更适合 pretraining，却难以直接支撑 zero-shot deployment 的原因。

03.

SIM1：先把仿真对齐现实，

再把仿真变成数据引擎

让机器人在「可变形世界模型」中练习：SIM1 打开数据 scaling 新路径（ECCV 2026）图1

SIM1 采用 real-to-sim-to-real 范式：先把真实场景、衣物、机器人和物理行为带入仿真，使其成为被现实约束过的世界；再在其中大规模生成数据，训练可直接部署到真实机器人的策略。它不是让策略适应偏离现实的仿真器，而是先让仿真器对齐现实，再把它变成数据扩展器。

这种对齐被拆成三层：几何对齐，构建 metric-consistent digital twin；物理对齐，用 deformation-stable solver 和参数校准逼近真实交互；动作对齐，从少量示教中抽取操作片段，再用 diffusion model 生成可执行轨迹。三者共同决定合成数据是否真正有训练价值。

第一层对齐：把真实衣物和场景扫描进仿真

让机器人在「可变形世界模型」中练习：SIM1 打开数据 scaling 新路径（ECCV 2026）图2

在柔性物体任务中，几何不是背景信息，而是决定成败的核心变量。SIM1 通过高精度 3D 扫描获取真实衣物的几何和纹理，并经点云融合、分割、Poisson reconstruction、补洞、平滑、重网格化等处理，得到可用于仿真的 textured OBJ asset。目标不是「看起来像」，而是保留尺寸、形态、褶皱和纹理，因为衣物边缘、局部结构和初始褶皱都会影响抓取点和后续动作。

机器人本体通过 URDF 导入仿真环境，桌面等静态资产按真实尺寸和位置标定。这一阶段建立 metric-level 几何基础；没有这一层，后续物理求解和动作生成都会建立在错误接触关系上。

第二层对齐：让仿真真正「尊重布料物理」

两侧均抓取同一块布料左上角和右上角粒子并向上运动。左侧传统算法受力传播慢、局部拉伸失真；右侧 SIM1 动态启动黄色弹簧约束，加速形变收敛，整体运动更稳定。

布料在仿真中通常被离散成粒子点；点和点之间的连线可理解为约束或弹簧，用来传递作用力、保持距离并抵抗拉伸。当机器人抓住布料一角向上拉时，外力先作用在被抓粒子上，再通过连接传到周围粒子，最终带动整块布料运动。

传统 solver 中这种传播往往不够快。视频左侧同样抓取左上角和右上角粒子后，被抓区域先明显拉伸，局部形变被放大，整块布料没有立刻整体跟随。对机器人 teleoperation 和策略训练来说，仿真必须实时更新；受力传播滞后会直接变成过度拉伸、抖动、穿透和不真实接触。

SIM1 的 deformation-stable solver 在 Newton-VBD solver 基础上引入显式 strain constraint。当 cloth mesh 的局部边长拉伸超过阈值时，系统会动态启动额外约束力，即视频右侧的黄色弹簧。它们用于快速抑制不合理拉伸，让受力更稳定传播，并让布料更快收敛到整体运动，从而降低异常延展、抖动和数值不稳定。

SIM1 还会校准 cloth physical parameters，包括弹性、弯曲、strain limit、接触刚度、摩擦、自碰撞半径等。它不是凭经验手调参数，而是对比仿真操作视频和真实机器人操作视频，让抓取、拉伸、抬起和释放时的形变节奏与最终状态更接近真实。SIM1 不只追求 render realism，而是把 deformable dynamics 本身作为对齐对象。

第三层对齐：从少量示教生成大规模、人类风格的操作轨迹

左侧为三条 teleoperated demonstrations，marker 点表示抓取、抬起、对齐、释放等关键位置。生成新数据时，系统随机采样关键位置，再用生成式模型补足过渡轨迹。

有了对齐后的场景和物理，还要解决动作从哪里来。柔性操作很难完全依赖脚本，一次成功折叠通常包含找边、抓取、抬起或拖拽、移动、对齐、释放等结构化片段，不同阶段对位置、速度、接触和夹爪开合都有不同要求。

SIM1 从少量 teleoperated demonstrations 中抽取 grasp、lift、fold、release 等 interaction primitives。生成新数据时，系统先随机选取关键位置或片段，再用 diffusion-based trajectory generation 补足 transition trajectories，从而在保留操作语义的同时生成平滑、可行、多样化的动作序列。

生成轨迹会在仿真器中执行，并通过任务成功检查和 discriminator 过滤；只有物理可行、视觉合理的轨迹进入训练集。随后系统对同一底层物理轨迹做 appearance randomization，包括衣物材质、桌面材质、光照、视角等变化。少量 teleop 示教由此变成启动数据生成引擎的 seed。

04.

实验结果：仿真数据不只是 pretraining，而是可以直接监督真实部署

真实数据 baseline 与 SIM1 synthetic data 对比

SIM1 最核心的实验结论是：纯合成数据训练出的策略，可以 zero-shot 部署到真实机器人上。在 T-shirt folding 任务中，真实数据训练策略平均成功率为 97%；SIM1 合成数据训练策略达到 87%，在相同数据预算下只差约 10%。

更关键的是，基于 SIM1 的策略在真实机器人上达到 90% zero-shot success，并相对 real-data baseline 获得 +50% 泛化提升。在 π0 scratch setting 下，real-only 成功率为 0%，SIM1-only 达到 76%，泛化提升 +56%。这说明增益不只是来自预训练模型，而是来自更可扩展、更有覆盖度的数据分布。

一个重要信号：15 条合成样本约等价 1 条真实示教

论文中还有一个重要结果：约 15 条 SIM1 synthetic samples 可以提供与 1 条真实 demonstration 相当的训练价值。这不是说合成数据完全替代真实数据，而是说明 real-to-sim 对齐后，合成数据开始具备可量化的训练价值。

这对机器人数据 scaling 很重要：真实数据负责启动和校准数据生成系统，合成数据再以规模弥补单样本价值差距。对真实采集成本极高的柔性物体任务来说，这意味着模型可以接触更多初始状态、材质、扰动和失败边界。

从单一代表任务到跨物体泛化

多种衣物折叠的真实部署结果，成功率分别为t-shirt 90%、 towel 80%、shorts 93%、polo-shirt 93%。

为了验证方法不只适用于单一任务，论文还展示了 towel、shorts 和 polo-shirt 等场景。在 towel flipping 和 shorts folding 中，系统分别从每类 100 条 teleoperated demonstrations 出发，生成 1000 条带 texture randomization 的合成轨迹；真实机器人评估中，towel folding 达到 80%，shorts folding 达到 93%。

更有意思的是 polo-shirt folding。它与训练 garment 在几何、尺寸、材质和摩擦上都有差异，也没有类似实例出现在训练集中；策略仍在没有 task-specific demonstrations 的情况下达到 93% success，显示出跨物体泛化潜力。

结语

SIM1 并不是宣称真实数据不再重要。相反，它把真实数据放在更关键的位置：真实数据负责锚定世界，仿真负责扩展世界。少量真实示教可以被转化为对齐后的数字孪生、稳定的柔体物理系统和大规模合成轨迹，并训练出可 zero-shot 部署的策略。

对于机器人学习来说，这意味着一个更现实的 scaling 路径：不是无限增加真实采集，而是用真实世界校准可扩展的数据引擎。SIM1 给出的回答是：问题不在于仿真本身，而在于仿真是否足够尊重现实。当仿真开始尊重柔性物体的几何、物理和动作，它就可能成为机器人练习和获取经验的可变形世界模型。

END