点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息
标题:NextBestPath: Efficient 3D Mapping of Unseen Environments
作者:Shiyao Li, Antoine Guédon, Clémentin Boittiaux, Shizhe Chen, Vincent Lepetit
机构:巴黎理工学院(IP Paris), Inria
原文链接:https://arxiv.org/pdf/2502.05378
官方主页:https://shiyao-li.github.io/nbp/
1. 导读
把agent放到一个未知环境中,如何让其主动且高效的探索?NextBestPath给出了答案。以往方法通常仅预测agent当前位置附近的下一最佳视角”(next best view),这种局部决策容易导致探索陷入局部区域,无法高效覆盖全局。此外,现有的室内数据集普遍存在几何复杂度不足与真实网格精度不高的问题,限制了算法的评估与泛化。为此,作者提出了一个全新的数据集 AiMDoom,并基于Doom电子游戏构建了自动地图生成器,从而能够在多样化的室内环境中更有效地评测主动三维建图算法的性能。
此外,这篇论文提出了一种新的下一最佳路径(Next-Best-Path)方法,其核心思想是预测一条完整的针对于3d主动重建的最优相机轨迹而非仅关注短视的局部视角。NBP在现有的 MP3D 数据集和 AiMDoom 数据集上均显著优于当前最新方法,实现了在不同复杂度室内场景中的更高效建图。
2. 效果展示
在大型复杂复杂室内环境下,NextBestPath能够不断生成最优轨迹移动到不同的未知区域,进行探索和重建。
我们的方法
基于next-best-view的sota:MACARONS

我们的方法

基于next-best-view的sota:MACARONS
我们能克服next-best-view“短视”的特性,进行全局规划和探索。
3. 引言
自主三维场景建图在计算机视觉、机器人学和图形学等领域具有重要意义,并在digit twins等应用中发挥着关键作用。本文研究主动三维建图(active 3D mapping)问题,其目标是让智能体利用深度传感器在未知场景中规划最高效的观测轨迹,从而完成整个场景表面的扫描与重建。
作者提出了一种新的下一最佳路径(next-best-path, NBP)规划方法,从传统的单步最优视角预测转向在统一模型中预测最优轨迹。该模型主要由三个模块组成:建图进度encoder、覆盖增益decoder和障碍物图decoder。建图进度encoder负责高效编码当前重建的点云及智能体的历史轨迹;在此基础上,覆盖增益decoder在以智能体为中心的大范围空间上预测价值图,每个栅格单元表示从当前camera pose到该pose的通过最短路径能够累计的重建收益,得分最高的pose被视为当前长期目标;障碍物图decoder则利用智能体的现有知识预测可见与不可见区域中的障碍物分布,从而在路径规划中避开障碍物。
4. 主要贡献
我们的贡献可概括为:
提出AiMDoom数据集,用于系统评估不同难度级别室内场景下的主动建图性能;
提出一种新的下一最佳路径(NBP)方法,能够联合预测长期目标、最优覆盖收益与障碍物分布,实现预测并且生成最高效的重建的相机轨迹;
在AiMDoom和MP3D两个数据集上均取得了sota。
5. 方法

方法架构图:我们的模型预测一个覆盖增益的价值图(隐式编码了从当前相机位姿沿最短路径移动到目标相机位姿的重建收益)以及障碍物图,这两者共同用于决策以获得下一最佳路径。
在预测完成后,我们根据该价值图和障碍物图生成一条从当前位姿出发的最短路径,且路径上每个相机的朝向也由该价值图决定。

我们采用课程学习的方法,使机器人能够在不同复杂度的环境中进行探索, 收集训练数据以及增量式学习(incremental learning),具体细节可参见论文正文。
5. AiMDoom数据集

我们推出的数据集是首个为主动探索而建立的大型室内场景数据集。其分为四个不同的难度,分别是simple, normal, hard, insane。每个难度有100个不同的场景,每个场景都有不同的内部构造和layout。

6. 实验结果


我们在AiMDoom和MP3D数据集上都达到了sota.
7. 总结
这篇论文主要研究未知环境下的主动三维建图问题。传统的方法依赖于next-best-view,但这类似的相关工作和方法在复杂和大型的室内环境中存在视野局限、缺乏长远规划的问题。为了解决这一问题,作者提出了新的方法 Next-Best-Path(NBP),该方法包括建图进度编码器、覆盖增益解码器和障碍物地图解码器。NBP 通过预测下一条完整的最优探索轨迹来高效地重建未见过的环境,并在 MP3D 和 AiMDoom 两个数据集上取得了最优的性能。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
3D视觉1V1论文辅导来啦!

3D视觉学习圈子
星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

3D视觉全栈学习课程:www.3dcver.com

3D视觉交流群成立啦,微信:cv3d001
