相机运动误差降低40%!DualCamCtrl:给视频生成装上「深度相机」,让运镜更「听话」

机器之心 2025-12-21 12:18
相机运动误差降低40%!DualCamCtrl:给视频生成装上「深度相机」,让运镜更「听话」图1


本研究的共同第一作者是来自于香港科技大学(广州)EnVision Research 的张鸿飞(研究助理)和陈康豪(博士研究生),两位研究者均师从陈颖聪教授。


你的生成模型真的「懂几何」吗?还是只是在假装对齐相机轨迹?


当前众多视频生成模型虽宣称具备「相机运动控制」能力,但其控制信号通常仅依赖于相机位姿。虽近期工作通过逐像素射线方向(Ray Condition)编码了运动信息,但由于模型仍需隐式推断三维结构,本质上仍缺乏对场景的显式几何理解。这一局限性导致了相机运动的不一致——模型受限于外观与结构两种表征信息的耦合,无法充分捕捉场景的底层几何特征。


鉴于上述挑战,来自香港科技大学、复旦大学等机构的研究团队提出了一种全新的端到端几何感知扩散模型框架 DualCamCtrl该研究针对现有方法在场景理解与几何感知方面的不足,创新性地设计了一个「双分支扩散架构」,能够同步生成与镜头运动一致的 RGB 与深度序列。进一步地,为实现 RGB 与深度两种模态的高效协同,DualCamCtrl 提出了语义引导互对齐机制(Semantic Guided Mutual Alignment),该机制以语义信息为指导,在双向的交互中实现了更好的模态融合。


这些设计使 DualCamCtrl 能够更好地解耦外观与几何建模,从而生成更严格遵循指定相机轨迹的视频。大量实验表明,DualCamCtrl 在相机运动一致性方面显著优于现有方法,相机运动误差降低超过 40%


相机运动误差降低40%!DualCamCtrl:给视频生成装上「深度相机」,让运镜更「听话」图2




双分支几何感知扩散模型


相机运动误差降低40%!DualCamCtrl:给视频生成装上「深度相机」,让运镜更「听话」图3


总体而言,DualCamCtrl 巧妙地采用了 双分支视频扩散框架(Dual Branch Video Diffusion Framework),其中一条分支负责生成 RGB 表示,另一条分支负责生成深度表示,两种模态通过提出的 SIGMA 机制进行融合。


该设计使得模型能够从单张输入图像及其对应深度图中,同步推断出视频级别的 RGB 与深度隐空间表征(Latent Representation),不仅最大限度降低了模态间的相互干扰,更使深度信息得以贯穿整个视频生成过程,实现连贯的几何引导。


SIGMA 机制以及双阶段训练


在多模态可控视频生成任务中,训练与融合策略是关键。DualCamCtrl 的核心设计正是基于这一认识,包含两部分:一是提出 语义引导互对齐(SIGMA)融合机制,促进 RGB 与深度模态在生成过程中的有效协同;二是采用分阶段训练策略——首阶段学习解耦的多模态表征,次阶段专注跨模态融合建模。


该设计使模型在复杂相机运动下,能同时保持外观连贯与三维几何准确,实现几何感知的可控生成。


语义引导互对齐机制


相机运动误差降低40%!DualCamCtrl:给视频生成装上「深度相机」,让运镜更「听话」图4

图3. SIGMA融合策略的动机与优势对比示意图。


基于双分支框架,RGB 分支与深度分支分别生成对应的视频序列和对应深度序列。尽管两者输入相同,但它们独立演化易导致输出不一致,因此需要有效的融合与对齐策略(图 3.a)。


然而该团队发现:单向对齐(One-Way Alignment)易损失语义一致性,几何引导对齐(Geometry-Guided Alignment)则过度强调几何表征而破坏了运动的一致性。为此,该团队提出了 语义引导互对齐机制(SIGMA)


SIGMA 采用语义引导的双向设计:浅层以 RGB 特征锚定语义结构,深层则引入深度反馈优化几何表达。该方法基于两个 key insights(图 3.b、3.c):




分阶段训练策略


为实现 RGB 与深度模态稳健生成与有效协同的目标,DualCamCtrl 采用分阶段训练策略(Two-stage training),为每个阶段的学习设置不同侧重点:




相机运动误差降低40%!DualCamCtrl:给视频生成装上「深度相机」,让运镜更「听话」图5

图2:两阶段训练的效果:单阶段模型因无法充分收敛(上图),导致其相机轨迹对齐效果欠佳(下图)。这凸显了先解耦学习外观与几何表征的两阶段策略的有效性。


实验结果


在定量和定性比较中,DualCamCtrl 在各项指标上均显著优于当前的 SOTA 方法。


定性分析:


相机运动误差降低40%!DualCamCtrl:给视频生成装上「深度相机」,让运镜更「听话」图6

在相同输入条件下,DualCamCtrl 在相机运动的对齐效果和视频生成的视觉效果上均显著优于现有先进方法。图中“+”标记为视觉对比的定位参考点。


定量分析:


相机运动误差降低40%!DualCamCtrl:给视频生成装上「深度相机」,让运镜更「听话」图7

Image to Video 定量分析结果


相机运动误差降低40%!DualCamCtrl:给视频生成装上「深度相机」,让运镜更「听话」图8

Text to Video 定量分析结果


总结


DualCamCtrl 提出了一种集成深度信息的双分支视频扩散模型,实现了更精准的相机控制视频生成。通过引入语义引导互对齐机制(SIGMA)与两阶段训练策略,该模型有效同步了 RGB 序列与深度序列的生成和融合,显著增强了模型的几何感知能力。实验表明,该方法在相机一致性误差上比先前方法降低超过 40%,为相机控制视频生成提供了新的技术思路,并有望推动其他可控视频生成任务的发展。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
相机
more
大疆2026开门红:运动相机销量超7成,全景、可穿戴领域双双反超
【苹果】iPhone锁屏滑动相机能关闭了 iOS26.1 RC版推送
349 元!刚偷偷上架这 mini 相机,把我看傻了
大疆又赢麻了!全景相机热卖第一、运动相机全面霸榜
最新:大疆运动相机全球市占第一近70%,全景相机市占近50%
莲花CEO头戴运动相机炮轰“瞭望塔式”激光雷达,推可升降方案引争议
vivo立项Vlog相机,松下宣布裁员1.2万人,曝博世在华启动人员优化补偿N+4,腾讯推出火龙漫剧平台,这就是今天的其他大新闻!
徕卡相机公司正在考虑出售,360doc个人图书馆寻求接手,Temu暂停土耳其跨境销售,育碧重组引发内部震荡,这就是今天的其他大新闻!
vivo正式确认进军Vlog相机市场,剑指大疆Pocket系列
曝哈啰顺风车小程序驾照、行驶证免审,填假信息也能接单;大疆全景相机全球市占近50%;亚马逊计划裁员3万人丨雷峰早报
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号