相机运动误差降低40%！DualCamCtrl：给视频生成装上「深度相机」，让运镜更「听话」

本研究的共同第一作者是来自于香港科技大学（广州）EnVision Research 的张鸿飞（研究助理）和陈康豪（博士研究生），两位研究者均师从陈颖聪教授。

你的生成模型真的「懂几何」吗？还是只是在假装对齐相机轨迹？

当前众多视频生成模型虽宣称具备「相机运动控制」能力，但其控制信号通常仅依赖于相机位姿。虽近期工作通过逐像素射线方向（Ray Condition）编码了运动信息，但由于模型仍需隐式推断三维结构，本质上仍缺乏对场景的显式几何理解。这一局限性导致了相机运动的不一致——模型受限于外观与结构两种表征信息的耦合，无法充分捕捉场景的底层几何特征。

鉴于上述挑战，来自香港科技大学、复旦大学等机构的研究团队提出了一种全新的端到端几何感知扩散模型框架 DualCamCtrl。该研究针对现有方法在场景理解与几何感知方面的不足，创新性地设计了一个「双分支扩散架构」，能够同步生成与镜头运动一致的 RGB 与深度序列。进一步地，为实现 RGB 与深度两种模态的高效协同，DualCamCtrl 提出了语义引导互对齐机制（Semantic Guided Mutual Alignment），该机制以语义信息为指导，在双向的交互中实现了更好的模态融合。

这些设计使 DualCamCtrl 能够更好地解耦外观与几何建模，从而生成更严格遵循指定相机轨迹的视频。大量实验表明，DualCamCtrl 在相机运动一致性方面显著优于现有方法，相机运动误差降低超过 40%。

相机运动误差降低40%！DualCamCtrl：给视频生成装上「深度相机」，让运镜更「听话」图2

论文标题： DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation
项目主页：https://soyouthinkyoucantell.github.io/dualcamctrl-page/
论文链接：https://www.arxiv.org/abs/2511.23127
Github 仓库：https://github.com/EnVision-Research/DualCamCtrl
Huggingface 模型：https://huggingface.co/FayeHongfeiZhang/DualCamCtrl

双分支几何感知扩散模型

相机运动误差降低40%！DualCamCtrl：给视频生成装上「深度相机」，让运镜更「听话」图3

总体而言，DualCamCtrl 巧妙地采用了 双分支视频扩散框架（Dual Branch Video Diffusion Framework），其中一条分支负责生成 RGB 表示，另一条分支负责生成深度表示，两种模态通过提出的 SIGMA 机制进行融合。

该设计使得模型能够从单张输入图像及其对应深度图中，同步推断出视频级别的 RGB 与深度隐空间表征（Latent Representation），不仅最大限度降低了模态间的相互干扰，更使深度信息得以贯穿整个视频生成过程，实现连贯的几何引导。

SIGMA 机制以及双阶段训练

在多模态可控视频生成任务中，训练与融合策略是关键。DualCamCtrl 的核心设计正是基于这一认识，包含两部分：一是提出 语义引导互对齐（SIGMA）融合机制，促进 RGB 与深度模态在生成过程中的有效协同；二是采用分阶段训练策略——首阶段学习解耦的多模态表征，次阶段专注跨模态融合建模。

该设计使模型在复杂相机运动下，能同时保持外观连贯与三维几何准确，实现几何感知的可控生成。

语义引导互对齐机制

相机运动误差降低40%！DualCamCtrl：给视频生成装上「深度相机」，让运镜更「听话」图4

图3. SIGMA融合策略的动机与优势对比示意图。

基于双分支框架，RGB 分支与深度分支分别生成对应的视频序列和对应深度序列。尽管两者输入相同，但它们独立演化易导致输出不一致，因此需要有效的融合与对齐策略（图 3.a）。

然而该团队发现：单向对齐（One-Way Alignment）易损失语义一致性，几何引导对齐（Geometry-Guided Alignment）则过度强调几何表征而破坏了运动的一致性。为此，该团队提出了 语义引导互对齐机制（SIGMA）。

SIGMA 采用语义引导的双向设计：浅层以 RGB 特征锚定语义结构，深层则引入深度反馈优化几何表达。该方法基于两个 key insights（图 3.b、3.c）：

语义优先的重要性： 外观特征应在早期占主导地位以保持语义的稳定，而深度信号作为后期补充来优化几何结构。

双向交互的重要性： 两分支相互反馈可避免单向对齐的失衡，实现更稳定的隐空间表征对齐。

分阶段训练策略

为实现 RGB 与深度模态稳健生成与有效协同的目标，DualCamCtrl 采用分阶段训练策略（Two-stage training），为每个阶段的学习设置不同侧重点：

解耦训练阶段（Decoupled Stage）： 核心目标是使 RGB 与深度分支分别专注学习外观与几何表征。为此，模型使用共享预训练权重初始化，并利用 state-of-the-art (SOTA) 视频深度估计模型 Video Depth Anything 生成的深度特征进行监督。此阶段禁止模态间交互，确保表征演化的独立性。

融合训练阶段（Fusion Stage）： 在两个分支具备基础能力后，核心目标转向实现外观与几何信息的互补增强。为此，模型引入零初始化的融合模块，逐步建立跨模态交互，并通过联合优化 RGB 与深度目标函数，实现多模态表征的对齐与协同。

相机运动误差降低40%！DualCamCtrl：给视频生成装上「深度相机」，让运镜更「听话」图5

图2：两阶段训练的效果：单阶段模型因无法充分收敛（上图），导致其相机轨迹对齐效果欠佳（下图）。这凸显了先解耦学习外观与几何表征的两阶段策略的有效性。

实验结果

在定量和定性比较中，DualCamCtrl 在各项指标上均显著优于当前的 SOTA 方法。

定性分析：

相机运动误差降低40%！DualCamCtrl：给视频生成装上「深度相机」，让运镜更「听话」图6

在相同输入条件下，DualCamCtrl 在相机运动的对齐效果和视频生成的视觉效果上均显著优于现有先进方法。图中“+”标记为视觉对比的定位参考点。

定量分析：

相机运动误差降低40%！DualCamCtrl：给视频生成装上「深度相机」，让运镜更「听话」图7

Image to Video 定量分析结果

相机运动误差降低40%！DualCamCtrl：给视频生成装上「深度相机」，让运镜更「听话」图8

Text to Video 定量分析结果

总结

DualCamCtrl 提出了一种集成深度信息的双分支视频扩散模型，实现了更精准的相机控制视频生成。通过引入语义引导互对齐机制（SIGMA）与两阶段训练策略，该模型有效同步了 RGB 序列与深度序列的生成和融合，显著增强了模型的几何感知能力。实验表明，该方法在相机一致性误差上比先前方法降低超过 40%，为相机控制视频生成提供了新的技术思路，并有望推动其他可控视频生成任务的发展。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com