在具身智能的征途上,我们究竟该依赖仿真的效率,还是现实的真实数据,甚或期待世界模型改变游戏规则?
随着物理仿真进入深水区,“仿真派”能否笑到最后?
然而Physical Intelligence (PI)联合创始人、具身智能领域的先行者Sergey Levine始终坚称:替代数据是叉勺(叉子勺子二合一的产物,既不如勺子,也不如叉子),真实交互数据不可替代——这究竟是策略局限,还是数据本质的铁律?如今,Genie3携世界模型横空出世,能够从文本生成可交互的动态环境,甚至驱动在线规划。这是否意味着我们正站在“仿真”与“现实”二元对立终结的前夜?世界模型会成为数据问题的终极答案,还是仅仅换了一种形式的sim,并依然难逃Sim-to-Real gap的宿命?
本场技术圆桌,我们邀请到国内Sim2Real领域四位杰出青年科学家——
智驾的学术领袖和未来的具身学术领袖,UniAD和UniVLA作者,港大OpenDriveLab 李弘扬 老师
Mars和UniScene的作者,清华AIR-SUN实验室 赵昊 老师
Maniskill2和SimplerEnv的作者,上科大具身智能实验室(SEALab) 顾家远 老师
RoboTwin2.0和Robobrain的作者,上海交通大学ScaleLab 穆尧 老师
与他们四位共话前沿,从高保真3D资产构建、神经渲染的物理瓶颈、铰链体结构优化,到VLA模型的解耦设计等方面入手深入探讨:具身智能的数据之路,究竟通向仿真、现实,还是那个正在觉醒的“世界模型”?
怎么理解
具身智能领域的“Sim-to-Real gap”?
第一个话题通常是向观众解答“是什么”!“Sim-to-Real gap”是指仿真环境与真实环境之间的差异。
在具身智能领域,“Sim-to-Real gap(仿真到真实的差距)” 的核心,其实是仿真对真实世界模拟不完全,既存在视觉与物理细节还原不足的问题,也因仿真数据有限导致模型泛化能力弱、仅适配特定场景。缩小差距需围绕数据优化,包括结合模型需求设计虚拟与真实数据配比、借 AIGC 生成丰富数据以兼顾体量与真实性等展开。
顾家远老师团队对此有非常多的研究积累。他们研究发现,这个gap的存在是因为仿真模型对真实世界的模拟并不完全准确。主要由于图像的真实性和角度影响、模型泛化能力不足以及数据有限导致只学习到特定场景下的特性。具体来讲,视觉上,如物体的摩擦力、光影效果(如明影)等细节方面存在较大差异,都会影响模型的行为和表现。
阴影问题其实是一个合理且有效的判断依据,就像人类也会通过阴影来判断物体的位置和状态。通过观察模型能否正确利用阴影信息来停止操作,从而判断其对真实世界的理解程度。

图1|顾家远老师团队的Simpler [1]。
穆尧老师首先肯定顾老师团队在 “Sim-to-Real” 严格对齐上的出色工作,同时也明确了“具身大模型需要海量数据支撑”这一观点。以阴影问题为例,不同光源位置会形成不同阴影,由此指出需一套大规模、高丰富度的数据自动生成方法。
接着他以著名工作 “RoboTwin” 为例说明两种数据配比问题:1.0 版本服务小模型,虚拟数据与真实数据配比约 300:20;2.0 版本服务大模型,配比达上千:几十,且强调数据的丰富性与体量对模型均至关重要。
最后提出解决方案:可借助 AIGC 强大的生成能力,通过替换桌面纹理、光照、物体摆放等方式,兼顾数据丰富性与真实性的需求。
李弘扬老师更倾向于更多依赖真实数据,原因是仿真效果受物理属性等因素限制,而真实数据更能满足需求,例如仿真中表现好的简单拾取放置(pick and place)任务,在真实环境下用少量数据训练就能有好效果。
此外,其团队在 UniVLA 等工作中常将真机与仿真数据混合训练,其中数据配比是关键问题,但目前尚无明确结论且需根据任务调整;从个人角度出发,他认为真机数据越多越好。

图2|李弘扬老师团队的UniVLA [2]。
赵昊老师团队则“另辟蹊径”,做了灵巧脸相关“Sim-to-Real”的典型应用。随着数字人技术的发展,特别是在生成各种表情的能力上非常出色,一旦成功将数字人的脸部特征迁移到机械脸上,就能带来很多之前无法实现的新能力。目前已经在数字人领域实现了输入任意一句话指定表情,让数字人实时展示相应脸部动作的成功案例,也是Sim-to-Real的一大突破。
并总结真实采集的数据需要保持干净。这里的干净指的是尽可能的减少小动作,但是完成一个细分任务的轨迹可以不一样。

图3|赵昊老师团队的灵巧脸Morpheus[3]。

到底用仿真还是真机数据好?
1
数据用什么(仿真还是真机)?怎么用?

赵昊老师结合多年创业及学术经验指出:学术界发论文做实验,十次成功一两次、做好成果“包装”即可;但创业做 demo 需向投资人展示,需八九次成功,因此部分团队的工作更偏向工程化,也面临数据等问题,因此,他更倾向于真机相关研究,因为用真机训练更方便、务实。
同时,他强调仿真的重要价值:在自动驾驶领域,仿真测试已被验证更快速、省时省力且安全;当前 AI 安全是不可忽视的重要方向,后续大量安全性测试必然依赖仿真。综上,他的核心观点是 “训练用真机更务实,测试用仿真更合适”。

2
具身智能中真实数据与仿真数据的价值

穆尧老师在本次圆桌中多次提到了真实数据的理想优势与现实困境。从学术角度看,若真机数据能极大丰富,同等数量下其训练效果无疑优于仿真数据;但现实是,具身智能领域所有公开素材加开源数据,体量远不及自动驾驶公司一周清洗出的真实数据,且具身智能的 “本体”(如机器人)不像汽车那样易统一,同时行业对具身智能期待远高于自动驾驶(需像 “月嫂” 般完成多样任务),真实数据缺口大,难以支撑需求。
仿真数据当前阶段的关键作用:认为具身智能 “可能处于并将长期处于” 依赖仿真数据的阶段,仿真数据能在基础模型迭代和测试中发挥重要作用——没有机构会训完模型不做仿真测试就直接上真机;以自身团队为例,会先在仿真平台(如与顾老师合作的平台)测试算法、排除 bug,再上真机,避免真机实验中烧电机、损坏关节等难以估量的损失。

图4|穆尧老师团队提出的RoboTwin。
仿真在强化学习规模化中的潜力:除了生成模仿学习数据,仿真在强化学习规模化上价值更大。若仿真器构建良好,可像AlphaGo(虽围棋建模简单)那样,通过大规模并行训练让模型学习到真实数据中难获取的场景(如 “物体被碰倒后如何处理”),即便目标只是让模型达到人类 50% 的能力,仿真也能提供关键支持。

3
仿真数据生成、应用价值及当前待解问题

顾家远老师从自身研究经历中
自动化生成仿真数据仍有差距:目前尚不具备大量自动生成仿真数据的能力,团队正推进相关工作(如计划开源的流程),希望让学生能通过扫描、拍照等方式自动生成对应场景,但当前存在遮挡、多图排版等未解决问题,三维生成领域尚未形成统一、收敛的自动化方案,距离实现自动化生产还有一段路;且相比外形生成,物理属性的生成更难。
仿真数据的多样性与动作泛化待突破:多位老师提及的 “多样性” 是关键问题——以RobotTwin相关工作为例,其运动规划(如抓取动作)模式较单一(呈 “一格一格” 的固定步骤),如何通过数据增广提升泛化性、生成更丰富的动作,即便在仿真场景下也无明确答案,仍是待探索方向。
仿真数据相比真实数据的核心优势:一是代码复用性强,更换机器人时,仿真代码基本无需改动,而真实数据受相机位置、机器人关节控制变化影响大,变动后需重新大量采集;二是教育领域价值显著,上真机培训学生代价高、复杂度高(需处理 WiFi 配置等与机器人知识无关的问题,换机器人还会出现新问题),仿真则能降低授课与学习门槛,十分必要。
长期来看、仿真数据是更有效的解决方案,只有在仿真无法满足需求时才考虑使用真实数据进行补充。

世界模型
在未来的研究方向及价值是什么?
1
路在何方?

李弘扬老师认为,世界模型应用于自动驾驶、具身智能的方向正确,但存在两大核心问题待解决:
“小世界模型” 路径是否可行,即能否基于其直接生成轨迹或策略,以及相关建模方式与计算效率优化,当前此类工作较少,呼吁学术界探索;
奖励设计与下游任务衔接问题,如视频生成后奖励如何设计、如何对接导航等下游任务,且短期需重视中间奖励设定。同时指出世界模型并非新概念,与过往相关模型概念相通,强调该领域研究无需大量计算资源,学术界不必羡慕资源充足的机构,应聚焦用小资源就能探索的学术问题,这类研究更易出成果,也符合学术界顶会最佳论文的取向。

2
新模态引入世界模型?

穆尧老师高度看好世界模型的发展前景,认为其长期来看极具价值,若能学好并结合强化学习,理论上可超越人类;但目前世界模型发展尚不完善,且高校在开展相关研究时面临计算资源(显卡)紧缺的问题。可以转向研究更有意思的方向——引入力、触觉等模态,聚焦世界模型中物理规律的相关问题,选择在单一场景下、以 8 张卡以内的有限资源开展学术尝试。

3
为什么reward有很大的研究前景?

赵昊老师关于“reward” 相关问题的看法与弘扬老师的观点高度一致。
纯视频生成领域已基本形成结论,关于如何训练出好的视频生成模型已无太多开放性问题(仅高分辨率、长时序仍有难度,但长时序问题也因相关技术逐渐解决,训练方法已较清晰);但 “操作(如灵巧手抓取)” 领域仍处于混沌状态,而这种混沌领域才是适合科研的方向,否则易沦为工程问题。
此外,他指出 Genie 3 的核心优势是将 “动作” 与 “观测” 良好结合且性能出色,而对于世界模型,action、observation、reward 是三大关键要素,前两者已有较好发展,因此他断言:未来 12-18 个月内,最重要的科学问题是 “如何在世界模型中引入 reward”。目前其团队已尝试能想到的所有技术路线,也诚邀学术界同行共同研究这一方向。

4
Genie 3 出现后 3D 是否还要做?

顾家远老师结合自身 3D 领域研究经历,他认为 Genie 3 虽能渲染视频且三维一致性较好,但推测其数据多来自游戏,模式类似早期 AIGC 取代部分艺术家工作,可能导致无需游戏设计师;
不过也指出局限,若面向机器人等场景,当前动作维度(如六维、七维)不足,仍需数据引擎构建对应游戏场景来生成高维度动作数据。除了算力规模化提升,数据层面也存在未解决的问题,学术界的机会可能在于为相关模型提供所需数据,或探索更自动生成机器人等场景所需数据的方法,而当前模型因依赖上下左右的游戏式操作,在应用场景上仍有局限性。
总结:世界模型的研究对于自动驾驶、具身智能等领域具有重要意义,尤其是在通用视觉、长期规划和记忆功能等方面展现出潜力。尽管当前受限于计算资源,但随着技术发展,世界模型有可能成为未来重要的研究方向。同时,如何设计合适的奖励机制以及如何将世界模型应用于更多场景中也是当前需要解决的关键问题。

Reaction环节:波士顿动力机器人技术
目前达到什么水平?
穆尧老师首先肯定了其执行任务的 “丝滑” 性,指出该任务不仅是单纯的抓取操作,还涉及全身运动,其遥操作部分技术难度很高,需要出色的运动控制作为支撑,后续能学到端到端的全身运动模型也十分不易。

接着,他从学术视角分析该系统的模型:若仅将其技术报告当作论文看,模型设计不算特别复杂;但恰恰是这种 “不复杂” 的模型,结合出色的底层能力实现了好效果,比设计复杂模型更让他震惊。
随后分析现有技术差距:目前在遥操作素材采集上就落后于该系统,尚且难以实现复杂的全身运动控制;而该系统凭借底层策略(如全身运动控制的 diffusion policy)学到优异效果,这让他触动很深。

李弘扬老师认为具身智能领域的关键不在于算法,而在于数据和硬件。他提及近期与硬件从业者交流的感受,强调波士顿动力实力很强:其机器人的丝滑表现、硬件技术方案,与市面上流行的、教育界常用的方案差异显著,技术水平突出。波士顿动力的机器人采用高度拟人化设计,需精确计算各关节力矩等,代表了该领域的正确发展方向;但核心问题是其硬件产品并不对外出售,讲话者坦言自身及团队目前无法获取,甚至表示若有网友有购买渠道,愿意高价合作,足见对其硬件的认可与需求。
赵昊老师再次肯定波士顿动力的遥操能力,认为即便仅是遥操也十分出色,尤其在可能使用精度有限的手套遥操、且手部自由度不高的情况下,仍能实现 “丝滑” 效果,非常难得。接着,他聚焦 VLA 领域架构展开分析:
π0采用 “视觉编码器+ 决策策略解码器” 架构,凭借决策生成模式的泛化性,整体表现扎实;
穆尧老师团队用离散扩散模型做 VLA 的工作,在架构上是很新颖的突破;

图5|穆老师团队的Discrete Diffusion VLA架构。
π0.5主打 “大小脑融合” 架构,而在π0与π0.5之间,还有一篇名为 “Fast”的 RSS oral 论文,专门研究 “如何避免流程阻塞” 的组织调度问题。
随后,他结合波士顿动力的表现指出:能实现丝滑效果,一方面是硬件方案极具原创性;另一方面在推理层面,其架构必然经过大量调整优化。而 “避免阻塞” 这一问题,即便 Fast 论文已专门研究,团队实测发现开源方案仍有诸多不足,有很大改进空间,这也是他当前的研究方向之一——他会更聚焦于 tokenizer 的流式性能优化,认为该领域难度很高。
顾家远老师虽认为自己不像其他老师对人形机器人研究深入,但观察到其 “丝滑” 表现除硬件差异外,还可能源于运控(运动控制)差异:比如机器人动作速度连续无卡顿,而当前多数研究常用的位置控制,因每个点位目标速度为零,会出现 “起步 - 减速刹车” 的顿挫感。
他指出即便用位置控制,也可通过插值转化为速度控制,在不改变训练位置数据的情况下,靠运控优化实现动作平滑。波士顿动力的高运控水平是其表现出色的重要原因,且国内电机在成本、效率、能力上与国外差距或不大,因此运控差异更可能是关键。因此他提出,传统控制的相关技术值得被结合、借鉴到现代具身智能中,以提升机器人动作的流畅性。

在本次reaction中,四位老师一致认可该机器人系统执行任务时的 “丝滑” 表现,共同指出该系统不仅涉及全身运动,其遥操作技术门槛高,且端到端全身运动模型的构建难度大、实现不易;在此基础上,各位老师还结合自身研究视角,分别提出了该领域后续可深入探索的方向,如运控、流式性能优化等。

结语
以上为具身智能之心独家技术圆桌栏目--圆桌正当时《sim,real还是world model?向四位青年科学家探问具身智能数据之路》的内容回顾。
具身进化之路漫漫,每一位具身者前行的一跬步,终将推动具身与真实世界产生交互向前一大步。具身智能进化的路上,有数采方案的不完美、有本体构型设计弯路、有各类算法的局限,有或多或少的迷茫,但弥合实验室到真场景的gap,是每位具身人孜孜不倦的追求。具身智能之心将会带领大家继续深入探问,拨云见日,去伪存真,见证具身飞入千家万户的那一刻。
完整 Talk 视频回放已上线至具身智能之心星球,国庆中秋双节优惠多多。


参考文献
[1]Li, Xuanlin, et al. "Evaluating real-world robot manipulation policies in simulation." arXiv preprint arXiv:2405.05941 (2024). (https://arxiv.org/pdf/2405.05941)
[2]Bu, Qingwen, et al. "Learning to Act Anywhere with Task-centric Latent Actions." arXiv preprint arXiv:2502.14420 (2025). (https://arxiv.org/pdf/2505.06111)
[3]Zhang, Zongzheng, et al. "Morpheus: A Neural-driven Animatronic Face with Hybrid Actuation and Diverse Emotion Control." arXiv preprint arXiv:2507.16645 (2025). (https://arxiv.org/pdf/2507.16645)
[4]Chen, Tianxing, et al. "RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation." arXiv preprint arXiv:2506.18088 (2025). (https://arxiv.org/pdf/2506.18088)
[5]Liang, Zhixuan, et al. "Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies." arXiv preprint arXiv:2508.20072 (2025). (https://arxiv.org/pdf/2508.20072?)