点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:CVer
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

现有的深度学习立体匹配模型虽然在合成数据集上表现出色,但一旦迁移到真实场景,性能往往大幅下降,核心瓶颈在于真实世界中标注数据的稀缺性。为了解决这个问题,本文提出了ZeroStereo:一个从任意单张图像合成双目图像的新型框架,能够实现真正意义上的零样本立体匹配训练。ZeroStereo基于单目深度估计结果,结合扩散模型完成右图生成,并引入训练无关的置信度建模与自适应视差采样机制,有效提升伪标签质量与视差分布多样性。实验证明,基于ZeroStereo生成的数据训练出的模型,在多个公开数据集上实现了当前最优的零样本泛化性能。

ZeroStereo: Zero-shot Stereo Matching from Single Images
论文:arxiv.org/pdf/2501.08654
项目代码:
https://github.com/Windsrain/ZeroStereo
引言:现实世界立体匹配的“训练难题”
立体匹配作为三维场景感知的关键任务,已广泛应用于自动驾驶、机器人感知、增强现实等场景。近年来,基于深度学习的方法不断刷新KITTI、Middlebury、ETH3D等标准数据集的性能指标。但这一切建立在一个前提之上:大量高质量、带精确视差标签的双目图像对。
然而,真实世界的数据获取面临重重挑战:获取双目同步图像并精确对齐的代价极高
精确视差标注几乎无法人工完成,激光雷达也存在分辨率和遮挡问题;大量使用的合成数据(如Scene Flow)存在明显域差异,泛化能力有限、自监督学习方法虽然减少对GT依赖,但在遮挡区域和纹理模糊区域效果不稳定。
为此,ZeroStereo尝试从源头解决“数据稀缺”问题:仅凭单张图像,生成具有训练价值的双目图像对和伪视差标签,从而彻底摆脱对真实双目数据和视差标注的依赖。这一策略既高效灵活,又具有广泛适应性,为低资源场景下的立体感知开辟了新道路
主要贡献如下:
1. 我们提出了一种新颖的立体图像生成流程 ZeroStereo,用于零样本立体匹配,包含一个经过微调的扩散模型,专门适应立体匹配中的复杂修复掩码。
2. 我们提出了无需训练的置信度生成方法和自适应视差选择策略,以提升立体训练的稳定性并增强视差的多样性。
3. 我们证明了使用该框架训练的模型,仅依靠与 Scene Flow 数据量相当的合成数据集,即可实现最先进的零样本泛化性能。
方法:单图变双目,扩散模型“补出”右眼
ZeroStereo构建了一个完整的数据合成与训练框架,主要包括四个核心组件:
1. 单目深度估计 → 伪视差生成
使用预训练的Depth Anything V2模型对输入图像进行深度估计,得到归一化逆深度图。再通过自适应视差选择模块(ADS)动态调整视差范围,以匹配不同图像分辨率的需求,防止因视差过大导致前景拉伸。
2. 前向变换 + 遮挡区域标注
将左图根据伪视差进行前向变换,同时标注出非遮挡区域和需要补全的遮挡区域,构成后续图像修复的掩码。
3. 扩散模型修复遮挡区域
针对前向变换后图像中缺失的信息,ZeroStereo提出对Stable Diffusion V2 Inpainting模型进行针对性微调,使其适应立体匹配任务中非规则遮挡模式下的图像修复需求。相比以往简单复制邻域像素或填充随机背景的策略,扩散模型能够补全结构与语义一致的图像内容。
4. 无需训练的置信度建模
为降低低质量伪标签对训练的影响,ZeroStereo引入训练无关的置信图生成策略。通过对左右翻转后的深度图差异进行归一化,得到置信图,低置信区域将被弱化或过滤。
最终,ZeroStereo从单张图像中合成出高质量双目对和伪视差标签,构建训练数据集“MfS35K”,训练传统立体匹配模型如RAFT-Stereo和IGEV-Stereo,即可实现强零样本泛化性能。
实验结果:在多个测试集全面领先
1. 零样本泛化基准
论文构建了一个统一的零样本泛化基准,涵盖多种类型的主流数据集,在所有方法均不使用目标数据集GT的前提下,ZeroStereo展现出目前最强的零样本泛化性能。
2. 消融实验
实验表明,每一个模块的引入都提升了性能。特别是当ADS与Inpainting组合使用时,能有效减少视差扭曲带来的修复失败。更进一步,当加入ZeroStereo特有的损失函数设计(基于置信加权和非遮挡掩码)后,最终模型泛化能力更强。
3. 数据集对比
ZeroStereo合成的训练集MfS35K仅包含3.5万张图像,对比主流方法使用的数据集动辄十几万甚至百万规模,依然获得更好的效果。说明:数据质量与多样性比单纯数据量更重要!
4. 可视化结果
总结:ZeroStereo,让你再也不为训练数据发愁
在传统立体匹配任务中,模型性能长期依赖于大规模、高质量的双目图像对和视差标签,这不仅限制了算法在真实场景中的泛化能力,也让算法开发门槛大大提高。ZeroStereo提出了一种从单张图像自动生成双目图与视差标签的完整方案,彻底摆脱对真实双目数据和标注的依赖。
3D视觉硬件,官网:www.3dcver.com
3D视觉学习圈子
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!