案例简介
苏州汤元科技有限公司(以下简称“汤元科技”)是一家专注于三维重建与世界模型的科技公司,为自动驾驶与具身智能提供高质量、多样化的训练数据。通过将自研的世界模型技术与 NVIDIA Cosmos 结合,实现真实物理世界的三维重建、场景泛化,并提升数据生成的效率与拟真度。
本案例主要应用 NVIDIA GPU 和 NVIDIA Cosmos 平台。
汤元科技成立于 2024 年 3 月,是一家专注于“世界模型 + AI”的创新型科技公司,致力于实现真实物理世界的三维重建与数据生成,推动物理 AI 的发展。公司核心业务是利用路侧传感器信息,将物理世界的全要素数字化重建,并以此构建高质量、可泛化的训练数据,服务于自动驾驶和具身智能等前沿领域。
在智能驾驶方向,汤元科技推出了自研的“Yootta 数据平台”,基于“Real2Sim2Real”的三维重建与视频扩散生成框架,将城市级多源感知数据自动化转化为多样化、高保真、结构一致的车侧视角训练数据。该框架能够涵盖不同天气、光照、道路结构等复杂场景。
传统三维重建受限于视角和环境,往往存在天空信息缺失及复杂场景泛化不足等问题。汤元科技通过引入 Cosmos,实现了缺失信息补全、多样化视角生成与复杂环境的泛化,为“感知在环”训练奠定了技术基础。

汤元科技基于 Cosmos 对交通场景的光照、天气、环境等进行重构。
智能驾驶数据获取与生成面临的挑战
数据是智能驾驶训练的燃料。在端到端和 VLA 等新一代技术体系推动下,智能驾驶对高质量、多样化、物理一致的训练数据提出了更高要求。当前,数据获取与生成面临多重挑战,成为制约技术突破的关键瓶颈。
1. 数据采集方式
传统依赖车队实采的方式存在高成本、低效率问题,且难以覆盖长尾场景;而纯生成式数据虽然成本低,但其物理一致性与行为真实度难以保障,难以满足模型对真实性和泛化能力的双重要求。通过路侧传感器采集数据并重建真实世界模型的方案,可以在满足智能驾驶对数据需求的同时,大幅降低采集成本。
2. 数据格式
智能驾驶的主流算法(如:端到端模型和 VLA 模型)需要“感知在环”的方式进行模型训练和测试。传统的智能驾驶数据集(如:nuScenes)是由自动驾驶车辆事先采集的日志数据,而非实时模拟环境。传感器信息一旦固定,当自动驾驶模型生成新的行驶轨迹后,传感器数据无法改变。因此,需要引入 4D 场景数据,以便在车辆位姿变化时,能够重新渲染传感器视角下的数据。
3. 数据源本身
无论是路侧还是车载采集都存在物理限制。路侧设备受部署密度和视角范围影响,生成数据常缺乏天空等关键环境要素;而车载视角则受遮挡影响较大,存在重建障碍物几何信息缺失、姿态估计不准等问题。

左图为通过路侧相机重建后渲染的车端视角视频,天空因视角受限而缺失;右图为经 Cosmos 补全天空等缺失信息后,呈现完整场景。
面对上述挑战,汤元科技自研“Real2Sim2Real”三维重建与视频扩散生成框架,构建了以 3D Gaussian Splatting 为核心、动静分离建模为支撑的四维动态重建能力。通过对静态背景与动态物体的时序建模与融合,确保重建结果具备空间一致性与时间连续性。同时,结合 Cosmos,实现了缺失信息补全、多样化视角生成和复杂环境泛化,突破了传统数据生成的瓶颈。相较于传统采集方式,汤元科技的解决方案在三个维度实现了显著提升:
技术上,通过路侧传感器信息实现真实物理世界的还原,具备更优的纹理、几何与光照一致性以及新视角的时空一致性;
业务上,提升了对场景密度、行为模态、长尾交互的还原能力;
效率与成本上,依托路侧数据采集与自动生成,数据采集效率提升 5 倍,综合成本下降超 80%。
NVIDIA Cosmos 助力突破 4D 重建瓶颈
为了突破三维生成与四维重建在效率、质量及泛化能力上的瓶颈,汤元科技引入了 NVIDIA 最新的软硬件产品,包括多卡 GPU 集群、Cosmos 引擎与扩散模型,构建出一套高效、真实、稳定的 4D 数据生成与增强系统。其在自动驾驶及具身智能的数据供给中表现出显著优势,具体包括:
基于 Cosmos 的物理级光影建模,提升视觉真实感
利用 Cosmos 引擎,汤元科技在构建 4D 动态场景时实现了跨时间帧一致的光照与材质表现,显著解决了传统 4D 合成中光影不自然与材质漂移的问题,极大增强了视觉拟真度。

4D 资产重建常因相机参数误差、稀疏视图和曝光不一致而导致质量下降。为此,汤元科技在初始车辆模型的 360 度环视范围内采样虚拟视角,并借鉴 NVIDIA 扩散模型思路进行修复;修复后的视角图像进一步用于训练 3D Gaussian Splatting(3DGS),从而提升车辆重建的几何精度与外观一致性。
2. 修复时空漂移,显著提升重建质量
针对 4D 重建中的跨帧结构漂移与纹理不一致问题,汤元科技结合 Cosmos-Transfer1-7B-Sample-AV 模型与扩散模型,进行了校正优化。在实际评估中,图像质量指标实现了大幅提升:
PSNR(峰值信噪比,Peak Signal-to-Noise Ratio)从 25.6 提升至 35.9
SSIM(结构相似性指标,Structural Similarity Index Measure)从 0.68 提升至 0.91
NTA-IoU(用于评估新视角的时空一致性,Novel Trajectory Agent IoU)从 0.613 提升至 0.804
LPIPS(感知相似性指标,Learned Perceptual Image Patch Similarity)从 0.137 降低至 0.021
FID(衡量生成图像与真实图像整体分布差异的指标,Frechet Inception Distance)从 130.4 降低至 23.1
这一提升在视觉质量、结构保真度与感知一致性方面均体现出突破性效果。
3. 高质量大规模风格迁移,实现数据泛化
通过 Cosmos 的风格迁移能力,汤元科技在保持空间结构稳定的前提下,生成了多样性极高的图像样本,实现超过 10 倍的数据增强效率。该能力有效覆盖了雨天、雪天、黄昏等边缘驾驶场景,极大拓展了模型的风格学习空间,显著提升了感知模型的泛化性能。
4. 打破“感知训练不在环”传统限制,实现“数据与模型”协同进化
传统感知模型的训练通常依赖于预先采集的静态离线数据集,这种离线训练方案难以适配 VLA(Vision-Language-Action)、RL(Reinforcement Learning)等需“感知在环”的模型。对此,汤元科技基于 Cosmos 构建的可交互式训练数据平台,提出了针对性解决方案:通过对真实物理世界进行 4D 重建,可实时渲染生成任意新视角的传感器数据,从而精准满足“感知在环”对动态、多维度感知输入的核心需求。该方案突破了传统离线数据的局限,推动了需要与动态环境持续交互的智能驾驶相关模型(如 VLA、RL)的研发进程。
借助 Cosmos 平台,汤元科技极大地提升了物理世界重建与泛化过程中的效率与精度。汤元科技还是 NVIDIA 初创加速计划的成员企业,得到了该项目的全方位支持。在技术方面,通过对 NVIDIA OpenUSD 课程的学习,提升了生成式模型构建与模块化 3D 资产利用能力。在市场与生态层面,通过参与 NVIDIA 初创加速计划的活动与演讲,不仅展示了技术实力,还拓展了合作伙伴网络,进一步提升了在世界模型与自动驾驶训练数据领域的影响力。
汤元科技联合创始人兼首席执行官任冬淳表示:“物理 AI 是未来最大的方向,所有的智能体都需具备感知、理解和执行的能力。在智能驾驶上,通过 Cosmos 的能力,我们可以更好、更快地交付客户所需的数据。同时,感谢 NVIDIA 初创加速计划,为我们开放了一个优秀的技术与市场平台,帮助我们连接产业资源、快速成长。”
