ICCV 2025 | 刷新记录!华科大提出ZeroStereo:单目的零样本立体匹配

3D视觉工坊 2025-08-18 07:00

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:CVer

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

资讯配图

现有的深度学习立体匹配模型虽然在合成数据集上表现出色,但一旦迁移到真实场景,性能往往大幅下降,核心瓶颈在于真实世界中标注数据的稀缺性。为了解决这个问题,本文提出了ZeroStereo:一个从任意单张图像合成双目图像的新型框架,能够实现真正意义上的零样本立体匹配训练。ZeroStereo基于单目深度估计结果,结合扩散模型完成右图生成,并引入训练无关的置信度建模与自适应视差采样机制,有效提升伪标签质量与视差分布多样性。实验证明,基于ZeroStereo生成的数据训练出的模型,在多个公开数据集上实现了当前最优的零样本泛化性能。

资讯配图

ZeroStereo: Zero-shot Stereo Matching from Single Images

论文:arxiv.org/pdf/2501.08654

项目代码:

https://github.com/Windsrain/ZeroStereo

引言:现实世界立体匹配的“训练难题”

立体匹配作为三维场景感知的关键任务,已广泛应用于自动驾驶、机器人感知、增强现实等场景。近年来,基于深度学习的方法不断刷新KITTI、Middlebury、ETH3D等标准数据集的性能指标。但这一切建立在一个前提之上:大量高质量、带精确视差标签的双目图像对

然而,真实世界的数据获取面临重重挑战:获取双目同步图像并精确对齐的代价极高

精确视差标注几乎无法人工完成,激光雷达也存在分辨率和遮挡问题;大量使用的合成数据(如Scene Flow)存在明显域差异,泛化能力有限、自监督学习方法虽然减少对GT依赖,但在遮挡区域和纹理模糊区域效果不稳定。

为此,ZeroStereo尝试从源头解决“数据稀缺”问题:仅凭单张图像,生成具有训练价值的双目图像对和伪视差标签,从而彻底摆脱对真实双目数据和视差标注的依赖。这一策略既高效灵活,又具有广泛适应性,为低资源场景下的立体感知开辟了新道路

主要贡献如下: 

1. 我们提出了一种新颖的立体图像生成流程 ZeroStereo,用于零样本立体匹配,包含一个经过微调的扩散模型,专门适应立体匹配中的复杂修复掩码。

2. 我们提出了无需训练的置信度生成方法和自适应视差选择策略,以提升立体训练的稳定性并增强视差的多样性。 

3. 我们证明了使用该框架训练的模型,仅依靠与 Scene Flow 数据量相当的合成数据集,即可实现最先进的零样本泛化性能。 

方法:单图变双目,扩散模型“补出”右眼

资讯配图

资讯配图

ZeroStereo构建了一个完整的数据合成与训练框架,主要包括四个核心组件:

1. 单目深度估计 → 伪视差生成

使用预训练的Depth Anything V2模型对输入图像进行深度估计,得到归一化逆深度图。再通过自适应视差选择模块(ADS)动态调整视差范围,以匹配不同图像分辨率的需求,防止因视差过大导致前景拉伸。 

2. 前向变换 + 遮挡区域标注

将左图根据伪视差进行前向变换,同时标注出非遮挡区域和需要补全的遮挡区域,构成后续图像修复的掩码。

3. 扩散模型修复遮挡区域

针对前向变换后图像中缺失的信息,ZeroStereo提出对Stable Diffusion V2 Inpainting模型进行针对性微调,使其适应立体匹配任务中非规则遮挡模式下的图像修复需求。相比以往简单复制邻域像素或填充随机背景的策略,扩散模型能够补全结构与语义一致的图像内容。

4. 无需训练的置信度建模

为降低低质量伪标签对训练的影响,ZeroStereo引入训练无关的置信图生成策略。通过对左右翻转后的深度图差异进行归一化,得到置信图,低置信区域将被弱化或过滤。

资讯配图

最终,ZeroStereo从单张图像中合成出高质量双目对和伪视差标签,构建训练数据集“MfS35K”,训练传统立体匹配模型如RAFT-Stereo和IGEV-Stereo,即可实现强零样本泛化性能。 

实验结果:在多个测试集全面领先

1. 零样本泛化基准 

资讯配图

论文构建了一个统一的零样本泛化基准,涵盖多种类型的主流数据集,在所有方法均不使用目标数据集GT的前提下,ZeroStereo展现出目前最强的零样本泛化性能。

2. 消融实验

资讯配图

实验表明,每一个模块的引入都提升了性能。特别是当ADS与Inpainting组合使用时,能有效减少视差扭曲带来的修复失败。更进一步,当加入ZeroStereo特有的损失函数设计(基于置信加权和非遮挡掩码)后,最终模型泛化能力更强。

3. 数据集对比 

资讯配图 

ZeroStereo合成的训练集MfS35K仅包含3.5万张图像,对比主流方法使用的数据集动辄十几万甚至百万规模,依然获得更好的效果。说明数据质量与多样性比单纯数据量更重要!

4. 可视化结果

资讯配图

资讯配图

总结:ZeroStereo,让你再也不为训练数据发愁 

在传统立体匹配任务中,模型性能长期依赖于大规模、高质量的双目图像对和视差标签,这不仅限制了算法在真实场景中的泛化能力,也让算法开发门槛大大提高。ZeroStereo提出了一种从单张图像自动生成双目图与视差标签的完整方案,彻底摆脱对真实双目数据和标注的依赖。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉硬件,官网:www.3dcver.com

资讯配图

3D视觉学习圈子

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

资讯配图

3D视觉全栈学习课程:www.3dcver.com

资讯配图

3D视觉交流群成立啦,微信:cv3d001

资讯配图

添加微信:cv3d001,备注:方向+单位,邀你入3D视觉交流群!

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IC
more
东芝系芯片扩产50%!重点关注SiC和GaN芯片
Anthropic 的 Claude 现在拥有百万级 token 上下文窗口,是之前的 5 倍
ICCV 2025 Oral | 告别「僵尸」3D数字人!清华、南洋理工等联手打造DPoser-X
记忆功能成新战场,谷歌Gemini、Anthropic Claude联手狙击OpenAI,网友:终于不用从头再来了
ICML25 Oral | ReferSplat 实现语言驱动的3D高斯场景精准分割
ICCV 2025 | 刷新记录!华科大提出ZeroStereo:单目的零样本立体匹配
重磅!华经产业研究院发布《2025年中国IC设计行业市场深度研究报告》
Microchem J:缺陷调控多孔碳稳定Pt-N4位点增强类漆酶活性及其在木犀草素检测纳米酶传感器中的应用
IC后端的一些经验总结附赠资料
理解、生成、编辑一次搞定:Skywork UniPic 2.0的统一多模态解法|甲子光年
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号