让机器“看懂”物体如何摆放：单视图3D生成新框架，解决机器人空间感知核心难题

你有没有想过，快递机器人分拣包裹时，是如何精准判断该把哪个包裹放进哪个货架的？当维修工戴上AR 眼镜检修机器，眼前的虚拟图纸为何能严丝合缝地“贴”在零件上？这些酷炫场景的背后，都离不开一项关键技术——6D 位姿估计。简单来说，它就是让机器不仅能感知物体“在哪儿”（3D 位置），还能识别它“怎么摆”（3D 姿态）。就像我们一眼就能看出杯子是立着还是倒着、离自己有多远一样，机器也正在学会这样的空间洞察力。

这项技术的重要性不言而喻。工业机器人需要它来精准抓取零件；自动驾驶汽车依靠它识别周围车辆的位置和朝向；AR应用则用它将虚拟物体准确叠加到真实世界中。

然而，这项任务在现实环境中仍然极其困难：预扫描的CAD 模型很少可用，多视图捕获不切实际，单视图重建存在尺度模糊性。因此，尽管从单幅图像进行可靠的一次性 6D 姿态估计在模拟中起着核心作用，但长期以来人们一直认为它几乎是不可能的。

而机器人与物理世界的交互，恰恰依赖这种精准的空间感知。

近期，由北京智源研究院、清华大学、南洋理工大学等机构联合提出的OnePoseViaGen框架，创新性地将单视图3D生成与生成式领域随机化相结合，为解决“单参考图像估计未知物体6D位姿”这一难题提供了全新思路。

让机器“看懂”物体如何摆放：单视图3D生成新框架，解决机器人空间感知核心难题图1

▍创新方案：OnePoseViaGen的工作原理

面对这些挑战，OnePoseViaGen提出“单视图3D生成→尺度-位姿联合优化→生成式领域增强”的端到端解决方案，目标很明确：仅需一张参考图，即可高精度估计未知物体的6D位姿。

让机器“看懂”物体如何摆放：单视图3D生成新框架，解决机器人空间感知核心难题图2

OnePoseViaGen 概述

从照片到3D模型

首先，该方法从单张锚点图像出发，通过先进的单视图3D生成技术构建初始的物体模型。具体而言分为三个步骤：

背景噪声抑制：采用实例分割工具（如 SAM 2）对参考图像中的物体区域进行提取，剔除背景干扰，确保后续生成过程聚焦于目标物体；

提取法线信息辅助建模：通过 Image-to-Normal 工具提取物体表面法线向量信息，该信息可反映物体表面凹凸结构（如边缘、凹槽），将其与裁剪后的 RGB 图像共同输入改进版 Hi3DGen 模型；

归一化3D模型输出：Hi3DGen 通过 “法线向量桥接 2D-3D 几何关系” 的机制，在 “物体中心坐标系” 下生成归一化纹理网格模型。该模型保留物体精细几何特征，但尺度为归一化单位（无物理意义），需通过后续模块实现尺度对齐。

解决尺度模糊的关键创新

拿到标准化模型后，核心矛盾转为“如何将归一化模型与真实世界对齐”。

这是OnePoseViaGen最核心的突破。由于模型的尺度和位姿与中的真实物体不匹配，直接使用会导致严重的位姿估计误差，于是研究团队设计了“粗对齐→精对齐”的两步优化策略，解决单视图重建的尺度模糊问题。

粗对齐阶段，系统通过多视角渲染、2D特征匹配并结合深度信息，利用PnP算法估算出一个初始的6D位姿和存在模糊的尺度，随后通过优化3D点云的重投影误差来求解出准确的全局尺度因子；

精对齐阶段则在此基础上，引入类似FoundationPose的迭代优化框架，通过不断渲染、比较并预测位姿增量来精细化位姿，同时在每次迭代后重新优化尺度，直至结果收敛，最终获得在真实世界坐标系下度量精确的模型与位姿。

让机器“看懂”物体如何摆放：单视图3D生成新框架，解决机器人空间感知核心难题图3

跨越领域鸿沟

为解决生成模型与真实图像间的差异，团队提出了文本引导的生成式领域随机化技术。

简单来说，就是为同一物体生成多种不同纹理的变体——一个杯子可以有花纹、纯色、磨砂等不同外观，但保持相同几何结构。随后，在虚拟环境中渲染这些变体模型，并随机改变光照、背景和遮挡条件，生成大规模合成数据集。最终，利用该数据集对位姿估计网络进行微调，有效弥合了生成模型与真实图像之间的域差距，显著增强了对各种真实世界挑战的适应能力。

▍实际表现：从实验到真实场景的验证

为验证OnePoseViaGen的性能，研究团队在多个主流6D位姿估计基准数据集上进行了测试，并与现有先进方法进行了对比。在YCBInEOAT数据集上的测试结果显示，OnePoseViaGen在ADD指标上实现了81.27%的平均精度，远超基线方法的45.6%。特别是在低纹理、高遮挡物体上优势更加明显。