SIGGRAPH 2025 | NVIDIA 研究中心推动物理 AI 的发展

NVIDIA英伟达 2025-08-13 18:07

AI 与图形学在神经渲染、3D 生成和世界仿真方面的研究突破,正在推动机器人、自动驾驶汽车和内容创作的发展。


资讯配图


物理 AI 是现代机器人、自动驾驶汽车和智能空间背后的引擎,它融合了神经图形学、合成数据生成、基于物理的仿真、强化学习以及 AI 推理等多种技术。作为一个全球性团队,NVIDIA 研究中心在近 20 年的时间里,持续推动着如今正走向融合的 AI 与图形学领域的发展。


NVIDIA 研究中心的负责人在温哥华举行的 SIGGRAPH 上发表特别演讲,重点介绍助力物理 AI 与空间 AI 发展的图形学及仿真创新成果。SIGGRAPH 是全球领先的计算机图形大会,活动将持续至当地时间 8 月 14 日(周四)。


NVIDIA AI 研究副总裁 Sanja Fidler 表示:“AI 正在提升我们的仿真能力,而我们的仿真技术也在推动 AI 系统的发展。这两个领域之间存在着真实且强大的协同效应,这种深度联动非常罕见。”


在 SIGGRAPH 大会上,NVIDIA 发布多款用于物理 AI 的全新软件库,包括用于大规模场景重建的 NVIDIA Omniverse NuRec 3D Gaussian Splatting 库、用于视觉 AI 的 NVIDIA Metropolis 平台的更新,以及 NVIDIA Cosmos 和 NVIDIA Nemotron 推理模型。Cosmos Reason 是一款面向物理 AI 的全新推理视觉语言模型,可使机器人和视觉 AI 智能体利用先验知识、物理规律理解和常识实现类似人类的推理能力。


这其中很多创新研究都是 NVIDIA 研究中心全球团队的突破性成果,团队在本次展会上发表了十多篇关于神经渲染、实时路径追踪、合成数据生成和强化学习等领域的前沿论文,这些功能将可为下一代物理 AI 工具提供支持。



物理 AI 如何将图形、

AI 和机器人开发相结合


物理 AI 开发首先要构建高保真、符合物理规律的 3D 环境。如果没有这些逼真的虚拟环境,开发者就无法在仿真环境中有效训练人形机器人等先进物理 AI 系统,因其在虚拟训练中学习的技能无法有效扩展到现实世界。


想象一下这些场景,一台农业机器人能够精确施加力道来采摘桃子,而不造成磕伤,或者一个制造机器人在毫米级精度要求的设备上精准组装微型电子元件。


NVIDIA 研究副总裁 Ming-Yu Liu 表示:“物理 AI 需要一个触感真实的虚拟环境,一个让机器人能通过试错安全学习的并行宇宙。为构建这样的虚拟世界,我们需要五大核心技术:实时渲染、计算机视觉、物理运动仿真、2D 及 3D 生成式 AI,以及 AI 推理能力。这些正是 NVIDIA 研究中心近二十年来潜心钻研的领域。”


NVIDIA 在光线追踪和实时计算机图形领域拥有深厚积淀,从 2006 年创立开始,这些突破性研究在实现物理 AI 仿真方面发挥着关键作用。当前,大量渲染工作也由 AI 模型完成,这一技术被被称为神经渲染。


NVIDIA 图形研究副总裁兼实时图形研究小组负责人 Aaron Lefohn 表示:“我们的核心渲染研究推动了用于训练高级物理 AI 的逼真虚拟世界的构建,同样 AI 也反过来帮助我们将图像转化为 3D 世界。我们现在已经能够将任何人都可以接触到的媒体形式,也就是照片和视频,快速重建为虚拟 3D 环境。”


资讯配图

神经重建和渲染技术借助 AI,处理从现实摄像头或其他传感器中捕获的数据,来生成逼真的 3D 场景表达。


这项在正向渲染(将 3D 转换为 2D)和反向渲染(将 2D 转换为 3D)方面的基础性研究,融合了多年来在物理运动仿真领域的研究与产品创新,其中包括 Fidler Spatial Intelligence Lab 的成果。该实验室发布了视频位姿引擎 ViPE——这是一款与 Dynamic Vision Lab 及 NVIDIA Isaac 团队合作开发的视频 3D 几何标注流程,能够根据业余录制内容、行车记录仪内容或电影镜头,估算摄像头运动并生成详细的深度图。


在生成式 AI 领域,Ming-Yu Liu 的深度想象研究小组作为 NVIDIA 研究中心的先驱力量,开创了计算机视觉、Transformer 模型和视觉生成式 AI 模型,使物理 AI 系统能够理解和预测世界的未来状态,例如汽车闯红灯时的潜在事故场景或水杯过于接近桌子边缘时导致的坠落轨迹。


这些技术突破为 NVIDIA Cosmos 奠定了基础,该平台于今年早些时候推出,通过整合世界基础模型、后训练库以及加速数据处理和工作流来加速物理 AI 的开发。


NVIDIA 研究中心

亮相 SIGGRAPH 大会


NVIDIA 研究人员在 SIGGRAPH 大会上展示了在仿真、AI 驱动的渲染和 3D 内容生成领域的技术突破,在创建虚拟世界、机器人开发和自动驾驶汽车训练方面具有应用潜力。


一篇论文讨论了从 2D 图像或视频中重建具有物理感知的 3D 几何体的挑战。虽然许多模型可以根据视频片段评估 3D 对象,但生成的 3D 形态通常缺乏结构稳定性。即使其视觉匹配度与真实物体高度接近,仍可能出现比例轻微失衡或缺少细节,从而影响其物理真实感。


例如,基于 2D 影像构建的 3D 椅子模型,在放入物理精度准确的仿真环境中时,可能会发生结构坍塌,其根源在于 AI 模型是对 3D 结构进行视觉估计,而非基于真实测量数据。本文提出的方法通过确保生成的 3D 形状符合真实物理规律,来避免出现该问题,并为物理 AI 训练创建虚拟世界提供支持。


资讯配图

右侧:静止状态。左侧:仿真状态。颜色显示了仿真几何结构中的应力分布。视频中出现的抖动是由于在优化过程的每次迭代中施加了随机扰动所致。

 

另一篇论文介绍了一种能够通过物理精度准确的动作赋予仿真角色真实动态的技术。研究人员将运动生成器与物理驱动的追踪控制器相结合,为复杂的动作(例如跑酷者的特技)生成逼真的合成数据。


这些数据有助于开发虚拟角色,或训练现实世界中的人形机器人掌握灵活的运动技能——这类技能在现实训练数据中非常罕见。这将拓展机器人能够完成的物理行为的范围,使其能够执行诸如穿越复杂地形以支持应急响应等任务。


其他论文探讨了光线和材质仿真的复杂性。


大会中,通过一个项目展示了艺术家如何创建 AI 助手来增强材质细节。它利用扩散模型和基于物理效果的可微分渲染器,使创作者能够在 3D 模型基础上便捷修改材质纹理贴图,进而仅通过文本提示来创建更丰富、更逼真的虚拟世界。


该团队展示了如何利用该模型来快速添加逼真的物体细节,比如风化或老化迹象,而通常来说,使用传统渲染方法创建此类细节非常耗时。这些物体可批量填充虚拟环境,服务于游戏等创意场景,也可用于物理仿真应用,例如在仿真器中训练机器人和自动驾驶汽车。



在光照仿真领域,另一篇 SIGGRAPH 论文通过引入一个稳健的可微分可见性查询机制,来解决可微分渲染中的挑战,显著提升了从影像与视频数据重建 3D 几何结构的效率与精度。


资讯配图

可微分渲染器能够基于图像和视频重建 3D 场景。NVIDIA 研究人员将可微分渲染器与生成的基础模型相结合,来创建 3D 内容创作的 AI 助手。


这篇论文展现了 NVIDIA 研究中心的前沿突破:它将正向渲染和反向渲染结合起来,从虚拟世界中快速提取参数,这些参数对于基于合成数据集来训练高精度物理 AI 模型至关重要。



点击“阅读原文”扫描下方海报二维码,观看 SIGGRAPH 2025 NVIDIA Research 特别演讲回放,听 NVIDIA AI 研究负责人分享他们如何为计算机图形和物理 AI 的下一步发展布局。中文字幕即将上线,敬请期待!


资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
智库观察丨“面面俱到”的代价:内在矛盾如何削弱特朗普政府AI战略的潜力?
又被耍了,我们给 AI 喂屎,把互联网糟蹋成啥样了
当AI从“炫技”走向实用,“自主可控”才真正站得住脚
华为发布AI推理创新技术UCM,降低对HBM依赖
Project Mariner,谷歌狙击Open AI的秘密武器
美国AI芯片,已被嵌入追踪器?
训练数据65万条!上海AI Lab联合提出端到端VLA模型InstructVLA,真机实验成功率超OpenVLA
科技圈大地震!elexcon2025 AI+芯片狂欢,开发板白送,你敢来吗?
AI Coding大佬聊透了:产品智能重要还是用户体验重要?答案让人意外
【报告】数据专题五:GenAI网页数据2025Q1报告(附PDF下载)
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号