超越一众SOTA!华为MoVieDrive:自动驾驶环视多模态场景生成最新世界模型~

大模型之心Tech 2025-08-26 08:00

资讯配图

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

今天自动驾驶之心为大家分享华为诺亚和多伦多大学最新的工作—MoVieDrive自动驾驶环视多模态场景生成最新算法,超越CogVideoX等一众SOTA。如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群加入,也欢迎添加小助理微信AIDriver005做进一步咨询

>>自动驾驶前沿信息获取自动驾驶之心知识星球

论文作者 | Guile Wu等

编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解

近年来,视频生成在自动驾驶领域的城市场景合成中展现出优越性。现有的自动驾驶视频生成方法主要集中在RGB视频生成上,缺乏支持多模态视频生成的能力。然而多模态数据(如深度图和语义图)对于自动驾驶中的整体城市场景理解至关重要。虽然可以使用多个模型来生成不同的模态,但这会增加模型部署的难度,并且无法利用多模态数据生成的互补线索。为了解决这个问题,本文提出了一种全新的面向自动驾驶的多模态环视视频生成方法。具体而言,我们构建了一个由模态共享组件模态特定组件组成的统一扩散Transformer模型。然后利用多样化的条件输入,将可控的场景结构和内容线索编码到统一的扩散模型中,以实现多模态多视角视频生成。通过这种方式,我们的方法能够在统一的框架内生成多模态多视角的驾驶场景视频。在nuScenes上的实验表明,MoVieDrive能够生成高保真度且可控性强的多模态多视角城市场景视频,性能超越了现有最先进方法。

  • 论文标题:MoVieDrive: Multi-Modal Multi-View Urban Scene Video Generation
  • 论文链接:https://arxiv.org/abs/2508.14327

简介

用于自动驾驶的城市场景视频生成近年来发展迅速。它可以用来生成可控的驾驶场景,特别是合成在现实世界中难以收集的长尾场景。这有助于提升自动驾驶的性能并进行可靠性评估。

当代的视频生成方法,如SVD和CogVideoX,在生成高质量视频方面已展现出令人瞩目的性能。然而,它们不能直接用于自动驾驶,因为多视角驾驶场景生成需要多视角时空一致性高可控性

为了解决这个问题,一些近期的研究探索了扩散模型用于可控的多视角城市场景生成,并取得了令人鼓舞的性能。然而,这些方法大多专注于单模态的RGB视频生成,缺乏支持多模态视频生成的能力。作为一个以感知为核心的任务,自动驾驶对多模态数据(如深度图和语义图)有着固有的需求,这些数据有助于实现更安全、更高效的自动驾驶,促进对城市场景的整体理解。

解决此问题的一种常见方法是使用多个模型来生成不同的模态,但这通常会增加模型部署的难度,并且无法充分利用多模态数据生成的互补线索。

资讯配图

在本研究中,我们提出了一种新颖的、面向自动驾驶的多模态多视角视频扩散方法,称之为MoVieDrive。如图1所示,与使用多个模型生成不同模态的以往方法不同,我们的方法提出使用一个统一的模型来联合生成多模态多视角的驾驶场景。图2展示了我们方法的概览。具体而言,我们采用多样化的条件输入,包括文本条件、参考条件和布局条件,以指导可控的场景生成。其中,文本条件指导整体场景生成,参考条件是可选的,仅用于未来场景预测,而布局条件则捕捉细粒度的场景线索。接下来,我们将多模态多视角场景生成分解为模态共享学习模态特定学习,并设计了一个包含模态共享层和模态特定层的统一扩散Transformer模型。这个统一的模型减轻了对多个模型的需求,并提高了模型的可扩展性。然后,我们将各种条件编码到统一的扩散模型中,以进行多模态多视角场景生成。这有助于利用多模态数据的互补线索,实现更丰富的场景理解,从而在统一的框架内促进多模态多视角城市场景的生成。为了评估我们方法的性能,我们在nuScenes数据集上进行了广泛的实验,这是一个具有挑战性的现实世界自动驾驶数据集。实验结果表明,与现有最先进方法相比,我们的方法在视频生成质量和可控性方面均取得了令人信服的成果,同时支持多模态数据生成。

总结来说,本文的主要贡献如下:

  • 提出了首个利用多样化条件输入和扩散Transformer模型进行多模态多视角自动驾驶场景生成的工作。这解决了现有工作的局限性,并促进了自动驾驶中的城市场景理解。
  • 设计了一个由模态共享组件和模态特定组件组成的统一多模态多视角扩散Transformer模型。这使得在单一模型内实现多模态多视角城市场景生成成为可能。

相关工作回顾

**视频生成 (Video Generation)**。作为计算机视觉领域一个长期的研究课题,视频生成已得到充分发展,并探索了多种类型的方法,例如扩散模型、变分自编码器(VAEs)、生成对抗网络、自回归模型等。其中,基于扩散的方法由于在可控性和保真度方面的优越性,近年来已成为主流。然而,这些方法不能直接应用于自动驾驶的城市场景生成,因为后者需要多视角时空一致性和高可控性。为了将它们适应于复杂的可控驾驶场景生成,需要进行大量修改。我们的方法继承了基于扩散的视频生成的优点,并为自动驾驶设计了一种新的多模态多视角扩散Transformer模型。

**城市场景合成 (Urban Scene Synthesis)**。城市场景和资产生成的快速发展极大地促进了自动驾驶中的数据合成和闭环评估。在自动驾驶的城市场景合成中,主要有两个研究方向。一条研究路线探索了渲染方法,例如神经辐射场(NeRF)和3DGS(3D Gaussian Splatting),用于城市场景合成。尽管这类方法能实现高保真度的场景合成,但其可控性和多样性较差。另一条研究路线则探索了视频生成方法,例如扩散模型,用于城市场景生成。其中,一些研究专注于单视角生成,而其他研究则探讨了多视角生成。我们的工作聚焦于更具挑战性的环视场景。扩散模型被广泛用作当代多视角城市场景生成的backbone网络,例如DriveDreamer、Panacea、MagicDrive、MagicDrive-V2、Drive-WM、MaskGWM等。尽管这些方法已展现出有希望的结果,但它们仅关注单模态的RGB视频生成,缺乏为整体场景理解生成多模态数据的能力。此外,UniScene提出使用多个模型来生成RGB视频和LiDAR点云,但仍未能构建一个统一的模型来实现多视角多模态驾驶场景生成。与现有工作不同,我们的方法提出在统一框架内生成多模态多视角的驾驶场景视频,填补了现有方法留下的空白。

**多模态合成 (Multi-Modal Synthesis)**。近年来已提出一些基于扩散的多模态合成方法。然而,这些方法均未针对城市场景生成而设计,且将它们修改以适应复杂的可控多模态多视角场景生成并非易事。我们的方法与这些工作不同,我们提出了一种新颖的框架,该框架利用多样化的条件输入,将可控的场景结构和内容线索编码到一个扩散Transformer模型中,以实现多模态多视角的驾驶场景生成。

MoVieDrive算法详解

概述

**问题陈述 (Problem Statement)**。本工作专注于自动驾驶的多模态多视角城市场景视频生成。具体而言,我们的目标是学习一个模型,该模型以场景描述(例如文本提示、框图等)为条件,生成  种模态的场景视频,例如RGB视频、深度图视频、语义图视频等。每个场景视频包含  帧和  个相机视角。

资讯配图

流程概述 (Pipeline Overview)。图2展示了我们方法的概览。我们的方法遵循基于扩散的视频生成范式。如图2左侧所示,我们通过文本条件、参考条件和布局条件构建场景描述,并使用相应的编码器提取这些条件的嵌入(embeddings)。布局条件和参考条件的嵌入与噪声潜变量(noisy latents) 拼接,作为输入  输入到扩散模型;而文本条件的嵌入则通过交叉注意力(cross-attention)层注入扩散模型。这里的噪声潜变量  在推理时通过从高斯分布中采样随机噪声获得,而在训练时通过对真实帧潜变量(由VAE编码器提取)添加按计划调度的噪声获得。接下来,如图2中间所示,我们构建了一个多模态多视角扩散Transformer模型,该模型由模态共享层(包含时间层和多视角时空块)和模态特定层(包含跨模态交互层和投影层)组成。然后,我们训练该扩散Transformer模型,从条件输入  中估计所添加的噪声 ,从而为每种模态生成干净的潜变量 。最后,如图2右侧所示,干净的潜变量  被用作VAE解码器的输入,以生成每种模态的多视角场景视频。

在接下来的章节中,我们将详细介绍条件输入编码、多模态多视角扩散Transformer以及模型训练与推理。

条件输入编码

**文本条件 (Text Conditions)**。文本条件用于指导整体场景生成。在我们的框架中,我们使用两种类型的文本条件,包括相机提示(camera prompts)和文本提示(text prompts),并使用双文本编码器生成文本条件嵌入 。对于相机提示 ,我们将应用了傅里叶嵌入(Fourier embedding)的相机内参和外参进行拼接,并使用基于MLP的编码器  提取相机嵌入。对于文本提示 ,我们使用视频字幕描述,并应用一个冻结的T-5文本编码器  来提取文本嵌入。我们将这些嵌入拼接为 。该过程可表述为:

其中  表示拼接。

Layout Conditions。为了实现细粒度的场景结构和内容控制,我们使用三种类型的布局条件,包括框图(box maps)、道路图(road maps)和基于占据的布局图(occupancy-based layout maps)。这些布局条件可以从人工标注或预训练模型中获得,对于控制复杂多视角驾驶场景生成中的细粒度细节非常有用。对于框图,不同于中使用框坐标来提取框嵌入,我们直接通过将目标3D框位置投影到图像平面并为不同类别分配不同颜色来生成2D框图 。对于道路图 ,我们将道路结构线索(车道分隔线、人行横道和车道边界)投影到图像平面,并为不同类别分配不同颜色。此外使用基于占据的布局图  来进一步增强场景的细粒度控制。这是通过将稀疏的3D占据(3D occupancy)投影到图像平面来生成稀疏语义图实现的。请注意,这些语义图是粗糙且稀疏的,与自动驾驶中用于城市场景理解的密集语义模态不同。3D占据在自动驾驶中已被深入研究,在实践中,3D占据可以通过现成的模型或仿真器获得。

为了编码这些布局条件,与之前的工作(使用多个编码器)不同,我们提出使用一个统一的布局编码器在将这些条件输入扩散模型之前对其进行融合。具体而言,我们采用因果卷积层(causal convolutional layers)构建因果ResNet块(causal resnet blocks),灵感来自。然后,我们使用为每种条件单独设置的因果块和一个所有条件共享的共享因果ResNet块来构建统一的布局编码器。通过这种方式,我们将布局条件融合以生成用于可控场景生成的布局条件嵌入 。该过程可表述为:

其中  和  是用于处理每种条件的因果ResNet块,而  是共享的因果ResNet块。

参考条件。在城市场景生成中,参考条件  指的是初始帧条件,它是可选的,仅用于未来场景预测,类似于世界模型。我们使用一个3D VAE编码器 来编码这些参考条件,但由于每种模态通常只有一个初始帧,因此我们将时间维度设置为1。请注意,在我们的方法中,我们为所有模态使用一个共享的预训练3D VAE(来自CogVideoX),而不是为不同模态使用不同的VAE。由于CogVideoX中的3D VAE是在海量真实世界视频语料库上训练的,因此它在编码和解码不同模态的视频方面表现良好。

在模型训练期间,我们使用共享的预训练3D VAE编码器提取真实帧的潜变量以生成噪声潜变量。因此,条件输入  通过以下方式获得:

其中  是一个卷积层,用于调节嵌入的维度与  相同。

多模态多视角扩散Transformer

当代的视频扩散模型不能直接用于多视角可控的城市场景生成。另一方面,现有的驾驶视频扩散模型缺乏为整体场景理解生成多模态数据的能力。为了解决这个问题,我们在本工作中设计了一种新的多模态多视角扩散Transformer模型。

具体而言,由于一个共享的预训练3D VAE  可以用于编码和解码不同模态的视频,我们推测不同模态共享一个共同的潜在空间,只需要某些组件来捕捉模态特定的内容即可将它们区分开来。基于此,我们将模型学习过程分解为模态共享学习模态特定学习,并构建了一个由模态共享组件模态特定组件组成的统一扩散Transformer模型。

对于模态共享组件,我们使用来自CogVideoX的时间注意力层 (包含3D全注意力)来学习视频帧之间的时间一致性,并通过时间注意力层中的交叉注意力注入文本条件 。这里,每种模态的条件输入  的维度被转换为  以适应时间注意力层。然而,这些时间层无法保证多视角视频生成的时空一致性。因此,我们在时间层块之后附加多视角时空块  来学习场景结构并捕捉时空一致性。如图3所示,每个多视角时空块由一个3D空间注意力层、一个3D空间嵌入层、一个时空注意力层和一个前馈层组成。3D空间嵌入层是一个多分辨率哈希网格(multi-resolutional Hash grid),它将3D占据位置  编码为3D空间嵌入,这些嵌入被加到时间层块的潜变量上,以增强空间一致性。3D空间注意力层是一个自注意力层,它将潜变量维度变换为 ,以学习所有周围相机视图的3D空间结构信息。时空注意力层是一个3D全注意力层,它将潜变量维度变换为 ,以捕捉多视角驾驶场景生成的完整时空信息。在实践中,我们每隔个时间层块后附加一个多视角时空块,而不是在每个块之后都附加。前馈层是一个全连接层,用于进一步变换潜变量。请注意,我们还在每一层之间使用了自适应归一化(adaptive normalization),以及自适应缩放和偏移(adaptive scaling and shifting)来调制潜变量。该过程定义为:

其中  是扩散时间步, 是来自前一层的潜变量输出, 是来自模态共享层的潜变量输出。

对于模态特定组件,我们为每种模态  构建每个跨模态交互层块 ,它包含一个自注意力层、一个交叉注意力层和一个前馈层,其中每一层之间也使用了自适应归一化以及缩放和偏移。在这里,交叉注意力层的查询(query)是每种模态的潜变量,而(key)和(value)来自其他模态潜变量的拼接。这个跨模态交互层块用于学习模态特定的内容,同时保持跨模态对齐。在实践中,跨模态交互层块被附加在每  个模态共享层之后。对于每种模态,该过程可表述为:

其中  是来自跨模态交互层的模态特定潜变量输出, 表示交叉注意力层中来自其他模态的键和值。

在  个模态共享层和跨模态交互层之后,我们使用模态特定的投影头(一个带有自适应归一化的线性层)来估计所添加的噪声  并为每种模态生成干净的潜变量 。每种模态的干净潜变量  被用作VAE解码器的输入,以生成模态特定的多视角场景视频。通过这种方式,我们的扩散Transformer模型能够在统一的框架内生成具有高保真度、高可控性和时空一致性的多模态多视角视频。请注意,我们的方法既可用于单模态也可用于多模态生成,且模态不仅限于RGB视频、深度图和语义图,还可以扩展到其他模态,例如法线图、光流图等。

模型训练与推理

对于模型训练,我们采用DDPM噪声调度器,并将多模态生成的训练目标  定义为:

其中对于第  种模态, 是训练损失的权重, 是真实干净的潜变量, 是噪声潜变量, 是条件, 是扩散模型, 是时间步。此外,使用条件丢弃(conditioning dropout)作为一种增强策略,以提高模型的泛化能力和输出多样性。在推理时,从高斯分布中采样随机噪声作为模型输入。我们采用DDIM采样器来提高反向扩散过程的效率,并使用无分类器引导(classifier-free guidance, CFG)来平衡输出的多样性和条件一致性。

实验结果分析

数据集与实验设置

**数据集 (Dataset)**。遵循先前的工作,我们在nuScenes数据集上进行实验。nuScenes数据集是一个真实世界的自动驾驶基准数据集,包含700个训练视频和150个验证视频。我们使用官方的训练集和验证集进行实验。

评估指标 (Evaluation Metrics)。为了评估视频保真度,我们使用常用的FVD作为指标。为了评估可控性,使用预训练的BEVFormer来评估基于视频的3D目标检测性能(以mAP衡量)和基于视频的鸟瞰图(BEV)分割性能(以mIoU衡量)。为了评估生成深度图的质量,我们还使用了绝对相对误差 AbsRel。此外,为了评估生成语义图的质量,我们报告了交通相关类别、建筑物、树木和天空的mIoU。

实现细节。我们在CogVideoX(v1.1-2B)和SyntheOcc的基础上构建我们的模型。我们采用预训练的T5文本编码器,并使用预训练权重初始化3D VAE和时间层。在训练过程中,3D VAE和T5文本编码器被冻结,而其他模型组件则联合训练。我们的模型使用AdamW优化器进行训练,学习率为2e-4。默认情况下,我们使用6个相机和49个视频帧,每个帧的分辨率为512×256。

与SOTA对比

视频保真度结果分析。视频保真度衡量生成的城市场景视频的真实感和时间连贯性。我们在表1中报告了FVD结果,并显示我们的方法相比最先进方法取得了更好的结果。具体而言,我们的方法达到了46.8的FVD,优于最先进的DriveDreamer、DriveDreamer-2、UniScene、MaskGWM、MagicDrive等方法。此外,与CogVideoX+SyntheOcc相比,我们的方法性能提升了约22%。图4展示了一些与最先进方法的定性比较。从图4中可以看出,我们的方法能够生成具有高保真度细节(例如车辆和道路结构)的城市场景视频。

资讯配图
资讯配图

场景可控性结果分析。场景可控性指条件输入与生成视频之间的一致性。我们在表1中报告了3D目标检测的mAP和BEV分割的mIoU。我们可以看到,我们的方法在3D目标检测上达到了22.7的最佳mAP,在BEV分割上达到了35.8的最佳mIoU,优于最先进方法。这表明我们的方法能够生成与控制条件更一致的城市场景视频。

深度图质量结果分析。在表1中,我们报告了FVD和AbsRel结果以评估生成深度图视频的质量。与由Depth-Anything-V2生成的深度图(如CogVideoX+SyntheOcc+Depth-Anything-V2)相比,我们的方法在深度图上取得了更好的FVD(25.3)和AbsRel(0.110)。这表明,我们统一框架中的多模态生成能够产生高质量的深度图,即使没有使用额外的模型进行多模态生成。

语义图质量结果分析。在表1中,我们报告了FVD和mIoU结果以评估生成语义图视频的质量。我们可以看到,与最先进方法相比,我们的方法取得了更好的结果,尤其是在FVD方面,显著优于对比方法。这进一步验证了我们多模态生成方法的有效性。

消融实验

多模态生成的有效性。在表2中,我们分析了我们多模态生成机制的有效性。我们比较了ours(RGB)+Depth-Anything-V2+Mask2Former、ours(RGB+depth)+Mask2Former和ours(RGB+depth+semantic)的性能。从表2可以看出,我们统一的方法(RGB+depth+semantic)取得了优越的整体性能。具体而言,我们的方法在深度图的AbsRel和语义图的mIoU上均达到最佳,且RGB的FVD也具有可比性。这验证了在统一框架内生成多种模态不仅减少了模型数量,而且实现了更好的整体性能。我们在图5中可视化了一些多模态生成结果。这些结果进一步展示了我们方法生成的多模态数据的跨模态一致性。

资讯配图
资讯配图

扩散Transformer组件的有效性。在表3中,我们研究了所提出的扩散Transformer模型的有效性。我们可以看到,仅使用时间层块(“L1”)会导致性能较差,而使用时间层块加上模态特定层块(“L1+L3”)则带来了更好的性能。当使用所有组件(“L1+L2+L3”)时,我们的模型取得了最佳性能。此外,图6显示,我们的方法能够保持跨视角一致性,而没有使用多视角时空块的方法则表现出较差的跨视角一致性。

资讯配图
资讯配图

统一布局条件编码器的有效性。在表4中,我们分析了我们统一布局条件编码器的有效性。我们可以看到,与使用预训练的3D VAE编码器相比,使用我们提出的统一布局条件编码器带来了更好的性能。这可以归因于所提出的模块能够实现隐式的条件嵌入空间对齐,从而有效地融合条件以进行可控的场景生成。

结论

本工作提出了一种新颖的、面向自动驾驶的多模态多视角城场景视频生成方法。其核心思想是设计一种新的多模态多视角扩散Transformer模型,并利用多样化的条件输入,在统一的框架内编码可控的场景结构和内容线索。在nuScenes数据集上的大量实验表明,所提出的方法在性能上优于最先进方法。

局限性与未来工作。尽管我们的方法在多模态多视角生成方面取得了优越的性能,但仍存在局限性。例如,如何有效地将所提出的方法与闭环自动驾驶仿真器相结合,值得进一步研究。这有望帮助全面评估自动驾驶系统的安全性和可靠性。此外,如何从生成的多模态数据中推导出LiDAR点云,是一个有趣的研究方向,可以进一步增强我们的方法。我们的未来工作旨在探索解决这些问题的方案,以促进该方法在现实世界应用中的部署。

自动驾驶之心

                                           

论文辅导来啦

资讯配图


自驾交流群来啦!

自动驾驶之心创建了近百个技术交流群,涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向!欢迎添加小助理微信邀请进群。

资讯配图


知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶世界模型仿真闭环3D检测车道线BEV感知Occupancy多传感器融合多传感器标定目标跟踪)自动驾驶定位建图SLAM高精地图局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

资讯配图

独家专业课程


端到端自动驾驶大模型、VLA、仿真测试自动驾驶C++BEV感知BEV模型部署BEV目标跟踪毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪、Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真传感器部署决策规划轨迹预测多个方向学习视频

学习官网:www.zdjszx.com


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
华为
more
预售16.98万起!最便宜华为智驾车,尚界H5值得买吗?
华为Mate70Pro+突然官宣:8月26日,全面降价
华为云“断舍离”:千余人卷入,All in AI
华为尚界两款新车曝光,月销量冲20000!
【品牌】9月见 华为耳夹式耳机2代来了 8.8''小平板即将备案?
最便宜的「华为车」来了,首次杀入20万级/英伟达发布人形机器人最强大脑/格力高管再度质疑小米空调排名
【前沿】华为鸿蒙5终端设备数突破1200万 有你的一台吗?
杀疯了!华为6款王炸新车官宣上市!
马斯克起诉苹果和OpenAI/17万起,最便宜「华为车」来了/高管再次质疑小米空调排名
16.98 万起入手华为全家桶,智驾、智舱全配齐,爆款预定?
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号