ICML 2026 | PhysForge框架来了,让3D资产从静态模型变成可交互对象

机器之心 2026-06-09 12:06
ICML 2026 | PhysForge框架来了,让3D资产从静态模型变成可交互对象图1

在交互式虚拟世界和具身智能快速发展的今天,高质量 3D 资产已经不再只是 “看起来像” 就足够。一个柜门不仅要有柜门的外观,还需要知道绕哪条轴旋转;一个按钮不仅要有按钮的形状,还需要具备 “按下 / 弹起” 的状态;一个抽屉不仅要有完整几何,还需要拥有滑动方向、运动范围、材质和质量等物理属性。该研究已被 ICML 2026 接收。


然而,现有 3D 生成方法大多仍停留在静态几何和纹理层面。它们可以生成视觉上精致的模型,却往往缺少支撑真实交互的功能逻辑与层级化物理结构。这类 “静态外壳” 难以直接进入机器人仿真或游戏引擎环境。


为了解决这一难题,香港大学和腾讯混元等机构的研究者们提出了 PhysForge,一个面向交互式虚拟世界的 physics-grounded 3D asset generation 框架。该框架仅需单张输入图像,就能生成具备部件结构、物理属性、功能语义和精确运动学参数的 3D 资产。


ICML 2026 | PhysForge框架来了,让3D资产从静态模型变成可交互对象图2



一、效果展示


如图所示,PhysForge 只需要单张输入图像,就可以生成 physics-grounded 3D assets。生成结果不仅包含高质量几何和纹理,还具备部件结构,并为每个部件给出详细的物理属性标签。


对于可动部件,PhysForge 还会预测关节轴、关节原点和运动范围等运动学参数,并给出可交互方式。这使得一个生成出的水壶、柜门、按钮或台灯,不再只是可观看的模型,而是可以被打开、按压、抓取或放入交互式虚拟世界中的资产。



在机器人仿真展示中,PhysForge 生成的资产被导入 RoboTwin 环境后,机械臂能够识别并操作其功能部件,例如按照关节约束打开柜门、拉出抽屉或抓取指定部件。



二、为什么需要 Physics-Grounded 3D Assets?


过去一段时间,3D 生成模型在整体形状、纹理和视觉质量上进步很快:模型是否好看、几何是否完整、表面是否逼真,已经成为常规评价维度。但在具身智能和交互式虚拟环境中,视觉逼真只是第一步。


一个真正可交互的 3D 资产,还需要回答一组更深层的问题:



这些信息共同决定了资产能否被仿真器、游戏引擎和具身智能系统真正使用。没有物理属性和运动学定义的模型,即便视觉上再精致,也很难成为 “可操作” 的环境对象。


PhysForge 的核心观点正是:交互式资产生成必须根植于功能逻辑和层级化物理结构。形状不应只是外观的结果,也应该是功能、材料、约束和可操作性的共同体现。


三、方法介绍:两阶段 “规划 - 生成” 策略


PhysForge 将复杂的 physics-grounded 3D asset generation 解耦为两个阶段:先由 VLM 进行物理规划,再由 diffusion model 完成几何、纹理与运动学参数的联合生成。


ICML 2026 | PhysForge框架来了,让3D资产从静态模型变成可交互对象图3


第一阶段是 VLM-based Planning。研究者们将 VLM 训练成一个 “physical architect”:它接收单张图像、可选 2D mask,以及由 TRELLIS 生成的 3D voxel 表示,并自回归生成 Hierarchical Physical Blueprint。


这个物理蓝图定义了每个部件的 3D bounding box、父子层级关系、关节类型,以及材质、质量、部件功能、状态机和 atomic affordance 等信息。换句话说,模型会先在语义和物理层面判断 “这个物体应该如何被拆解、如何被使用、又应该如何运动”。


第二阶段是 Diffusion-based Generation。VLM 擅长进行结构和语义规划,但关节轴方向、关节原点、运动范围等连续 3D 参数,仍然需要更精细的生成机制。因此,PhysForge 将这些精确数值交给 diffusion stage 来 “锻造”。


为此,研究者们提出了 KineVoxel Injection (KVI) 机制。KVI 将每个可动部件的关节原点、关节轴和运动限制编码为 kinematic voxel,并与几何 voxel 一起进入统一的 diffusion denoising 过程。这样,模型可以在同一个生成过程中协同学习 “部件长什么样” 和 “部件应该怎么动”。


最终,PhysForge 能够同时输出高质量几何、纹理、部件结构和精确运动学参数,让单图生成的 3D 资产具备直接进入交互环境的能力。


四、PhysDB:15 万资产的物理标注基座


为了支撑这一任务,研究者们构建了 PhysDB,一个包含 15 万 3D 资产的大规模数据集。PhysDB 来源于 Objaverse,覆盖 household、industrial、weapons、personal、vehicles、tech & electronics、cultural items 等七大类别,并为资产提供细粒度、层级化的物理标注。


PhysDB 的标注体系分为四层:



这套标注让模型学习的不只是 “部件在哪里”,更是 “部件是什么、能做什么、应该如何被操作”。它为 PhysForge 从静态视觉生成走向 physics-grounded 3D asset generation 提供了关键数据基础。


五、丰富的下游应用


PhysForge 生成的资产不是停留在展示层面的静态模型,而是可以直接服务于多个下游场景。


ICML 2026 | PhysForge框架来了,让3D资产从静态模型变成可交互对象图4


第一,机器人仿真。对于机器人训练和评测,PhysForge 生成的资产可以作为可操作的环境对象扩充仿真场景,减少手工建模、关节绑定和物理参数配置成本,让机器人更容易在多样化物体上学习真实交互。


第二,虚拟世界与游戏引擎。在 Unity、Unreal Engine 等交互式环境中,PhysForge 生成的资产已经具备材质、质量、功能和关节信息,开发者可以更直接地构建复杂交互逻辑,而不必从零手工配置每一个可动物体。


第三,具身智能 agent 与环境交互。由于第一阶段会生成文本化的 physical blueprint,agent 可以通过自然语言查询资产的结构和功能信息,从而形成更明确的任务计划。例如面对一个柜子,agent 可以知道柜门在哪里、把手属于哪个部件、关节如何旋转,以及应该如何完成打开操作。


六、总结


PhysForge 将 3D 生成的目标从 “生成静态外观” 推进到 “生成可交互资产”。通过 VLM-based Planning 与 Diffusion-based Generation 的两阶段设计,该框架先规划层级化物理蓝图,再通过 KineVoxel Injection 生成高质量几何、纹理和精确运动学参数。


同时,PhysDB 为这一方向提供了大规模、细粒度、层级化的物理标注基础。面向交互式虚拟世界、机器人仿真和具身智能数据引擎,physics-grounded 3D asset generation 将成为重要基础能力。PhysForge 则迈出了关键一步:让生成的 3D 资产不止 “看起来真实”,也能真正 “被理解、被操作、被交互”。


© THE END

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IC
more
ICML 2026|FusionRoute:从专家路由到自我修正,一种新的多LLM协作范式
看完1882篇工作后,2026 ICRA上大家都在卷什么?
医保个人账户跨省共济来了;追觅创始人俞浩称将心无旁骛做实业;闻泰科技起诉安世荷兰;美国Anthropic呼吁全球AI刹车...
180亿元,IC设计大厂公布新计划
AI数据中心打开新场景,SiC/GaN功率器件走向系统级竞争
人形玩家再战!史上最大规模的ICRA2026
FPGA标准库-Open Logic
对话它石智航丁文超:具身智能,如何迈进「2.0时代」?丨ICRA 2026
废片也能变大片!北大开源首个「美学照片重构」模型 | ICML'26
五家厂商入局,合封 SiC 芯片迎来新窗口!
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号