导语:
★新兴产业最新资讯:当生成式AI已经能用Sora创造60秒的逼真梦境时,我们的物理机器人面对一个乱糟糟的客厅,却依然显得有些“手足无措”。
★具身智能(Embodied AI)的下一个里程碑,不在于能“聊”什么,而在于能“干”什么。而要让机器人学会干活,首先得给它一个足够真实的“练兵场”。
近日,香港大学、原力无限等联合团队在arXiv上发布了一项重磅工作——RoboTidy。这是业内首个基于3D Gaussian Splatting(3DGS)技术的家庭整理基准(Benchmark)。它不仅构建了500个照片级逼真的交互式3D环境,还提供了超过8000条专家演示轨迹。
最值得关注的是,这项研究并没有止步于仿真。在原力无限资深研究科学家陈佳玉博士团队的深度参与下,RoboTidy不仅在仿真中表现优异,更在Sim-to-Real(虚实迁移)环节展现出了惊人的落地潜力——将真实机器人的长序列任务成功率提升了近30%。
这是一次学术界与产业界联手,对具身智能“数据”与“环境”底座的一次降维打击。

01 告别“我的世界”画质:为什么具身智能需要3DGS?
长期以来,具身智能研究被困在一个“仿真悖论”里:
目前的仿真器(如Habitat, AI2-THOR)大多基于传统的3D网格(Mesh)建模。虽然速度快,但画质往往失真,缺乏真实世界复杂的光影和纹理。机器人是在一个类似“电子游戏”的低保真环境里训练的,一旦部署到充满噪点、反光和复杂遮挡的真实家庭,算法立刻“水土不服”。
RoboTidy的核心突破,在于引入了3D Gaussian Splatting(3DGS)。
不同于NeRF的昂贵计算成本,也不同于Mesh的生硬几何,3DGS能够以极高的渲染速度(100+FPS)重建出照片级的真实场景。
研究团队利用手持设备扫描了500个真实的家庭场景(包括卧室、客厅、餐厅等),并将这些数据通过3DGS管道“克隆”进了仿真器。这意味着,机器人在RoboTidy里看到的,不再是简单的色块,而是真实的光照变化、地毯的绒毛质感、甚至是不锈钢杯子上的反光。
这种“所见即所得”的视觉保真度,为训练高鲁棒性的视觉编码器提供了前所未有的土壤。

02 重新定义“整理”:8000条轨迹里的“常识”
整理房间,对人类来说是本能,对机器人来说却是顶级的长序列规划(Long-horizon Planning)挑战。
机器人不仅要识别出“这是一只袜子”,还要通过VLM(视觉语言大模型)理解“袜子应该出现在衣柜里,而不是餐桌上”。这需要机器人具备极强的语义理解和常识推理能力。
为了解决这个问题,RoboTidy提供了一个极其庞大且高质量的数据集:
-
500个场景资产:覆盖了极高多样性的家庭布局。 -
8000+专家示范轨迹:详细记录了从物体识别、抓取规划到放置决策的完整链条。
这些数据不仅仅是坐标点的移动,更包含了“人类是如何整理房间”的隐性逻辑。基于这些数据,团队提出了一套包含“语义规划器(Semantic Planner)”和“底层策略(Low-level Policy)”的分层控制框架,让机器人学会了像人一样思考:“看到杂乱👉规划归属地👉执行整理”。

03 从Sim到Real:原力无限的工程化验证
再完美的仿真,如果不能落地到物理世界,也只是“空中楼阁”。
这正是原力无限加盟该项目的核心价值所在。作为一家致力于具身智能产业化落地的科技企业,原力无限团队重点攻克了Sim-to-Real Gap(虚实迁移鸿沟)这一行业痛点。
论文实验数据显示,在真实世界的机器人测试中,直接使用传统方法训练的模型往往步履维艰。而经过RoboTidy高保真环境预训练、并结合原力无限自研控制算法的策略,展现出了极强的鲁棒性。
特别是在处理未见过的物体(Unseen Objects)和复杂背景时,RoboTidy模型的表现显著优于基线方法。在真实机器人实验中,任务成功率相比传统方法提升了29.4%。
这一数据的背后,是陈佳玉博士团队将学术前沿算法与工业级硬件控制相结合的成果。它证明了:高质量的仿真数据,是可以直接转化为真实世界的生产力的。

04 开源:给行业一把统一的“尺子
在RoboTidy发布之前,家庭整理任务缺乏一个统一的评测标准。A实验室说成功率90%,B实验室说80%,但大家用的测试场景完全不同,根本无法横向对比。
RoboTidy的另一个重要贡献,是建立了一套标准化的评测系统和Leaderboard。
-
统一的API接口:让开发者可以轻松接入自己的算法。 -
多维度的Metric:不仅看物体是否归位,还评估放置的合理性、美观度以及执行效率。
“我们希望RoboTidy能成为具身智能领域的更接近真实世界的新基准。”
团队在论文中表达了这样的愿景。
通过开源这套高质量的基准,香港大学与原力无限正在向全球开发者发出邀请:在一个更真实、更严苛、更标准的起跑线上,共同推进家庭服务机器人的进化。
结语
从几何体堆砌的“假房间”,到3DGS渲染的“真家庭”;从单纯的学术论文,到Sim-to-Real的硬核落地。
RoboTidy的出现,标志着具身智能的研究范式正在发生转变:不仅要算法更强,还要环境更真。
而在这一波技术浪潮中,以原力无限为代表的产业力量,正在与顶尖学术机构形成紧密的“研-产”闭环。这种深度协同,或许正是通用人形机器人走进千家万户的加速器。
目前,RoboTidy的论文已在arXiv上线,代码和数据集也将逐步开放。具身智能的下半场,好戏才刚刚开始。