
日前,世界模型国际权威榜单 WorldArena 更新排名,中国科学院工业人工智能研究所徐凯研究员带领物理智能团队(The PAI Lab)自研的世界模型 PAIWorld 登顶。
项目主页:
https://guhuangai.github.io/PAIWorld-Proj/ 论文链接:
https://arxiv.org/abs/2606.18375
WorldArena 作为目前世界模型领域最权威的评测榜单,是针对具身世界模型的全方位评价体系,涵盖视觉质量、运动质量、内容一致性、物理遵循、三维准确性及可控性六大维度,直击时序运动合理性、物理规律遵循及三维空间认知等深层技术难点。由于其极高的学术严谨性与行业公信力,WorldArena 榜单汇聚了来自李飞飞领衔的 WorldLab、谷歌、英伟达、斯坦福大学、智元机器人、北京人形机器人创新中心、高德、小米等的几乎所有全球头部世界模型同台竞技,竞争异常激烈。
PAIWorld 能够在如此多维度的严苛检验中以 72.31 的总分拔得头筹,反映出其在高质量视觉生成、稳定运动建模、物理规律理解、三维空间认知与动作控制落地等核心底层技术上的全面成熟与显著优势。

World Arena 榜单最新排名(2026.6.19)
在各单项指标中,PAIWorld 在 Motion Smoothness(运动平滑性)指标上以 95.41 分名列前茅,全面展现了模型在时空一致性方面的突出优势,体现了对真实物理世界连续运动规律的精准建模。同时,PAIWorld 在 Trajectory Accuracy(轨迹准确性)单项上大幅领先第二名 7.4 分,意味着模型不仅能够生成流畅自然的运动过程,更能在长时序预测中准确保持物体与相机的运动轨迹,减少轨迹漂移和空间错位。这一优势进一步证明 PAIWorld 在「时空一致、精准预测、遵循物理」的全链路能力上达到国际领先水平。

PAIWorld 模型架构:融合 3D 几何先验的多视角时空联合建模
技术亮点
PAIWorld 以「几何先验驱动 + 多视角时空联合建模」为核心设计思路,构建了一套系统性的具身世界模型方案,使 PAIWorld 能够在长时序、复杂交互场景下精准建模物体的运动轨迹与动力学特性。具体包括:
三维几何先验注入: 通过三维基础模型为模型注入强大的空间一致性先验,将真实世界的深度结构、表面几何与遮挡关系作为显式约束嵌入生成过程,使 PAIWorld 能够在长时序、复杂交互场景下保持稳定一致的物体结构。
几何旋转位置编码(Geo-RoPE): 提出几何旋转位置编码,将注意力头拆分为射线子空间与位姿子空间,分别编码像素级的三维射线方向和视角级的相机位姿信息,使模型天然具备跨视角的三维几何感知能力,为多视角一致性生成提供坚实的位置编码基础。
多视角注意力机制: 在主干视频生成网络中引入多视角注意力机制,使模型在生成每一帧时都能跨视角对齐同一物理场景的几何与外观信息,实现对真实物理世界的精准模拟。




PAIWorld 在多物体交互场景展现精准的预测世界能力


PAIWorld 在铰链交互场景展现准确的物理理解能力




PAIWorld 的重建结果展现了高质量的时空一致性
连续斩获佳绩,
持续发力工业具身智能创新
值得一提的是,PAIWorld 模型的先前版本已在 AGIBOT WORLD CHALLENGE@ICRA 2026 World Model 赛道中荣获亚军,并在衡量物理环境理解能力的核心指标——「场景一致性」得分上夺得单项第一。该赛事由智元机器人在机器人领域国际顶会 ICRA 2026 上举办,吸引了来自全球多个国家和地区的 336 支顶尖团队参赛。
从 AGIBOT Challenge 亚军到 WorldArena Challenge 冠军,PAIWorld 在短时间内实现了从「强者之列」到「强者之巅」的跨越,体现了中国科学院工业人工智能研究所在具身世界模型领域的创新实力。
未来,The PAI Lab团队将依托自研世界模型和世界动作模型(World Action Model),打造世界模型驱动的具身数据闭环,特别是在真实场景中形成具身数据飞轮,最终实现具身智能的自我改进和持续进化。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com