你有没有想过,快递机器人分拣包裹时,是如何精准判断该把哪个包裹放进哪个货架的?当维修工戴上AR 眼镜检修机器,眼前的虚拟图纸为何能严丝合缝地“贴”在零件上?这些酷炫场景的背后,都离不开一项关键技术——6D 位姿估计。简单来说,它就是让机器不仅能感知物体“在哪儿”(3D 位置),还能识别它“怎么摆”(3D 姿态)。就像我们一眼就能看出杯子是立着还是倒着、离自己有多远一样,机器也正在学会这样的空间洞察力。
这项技术的重要性不言而喻。工业机器人需要它来精准抓取零件;自动驾驶汽车依靠它识别周围车辆的位置和朝向;AR应用则用它将虚拟物体准确叠加到真实世界中。
然而,这项任务在现实环境中仍然极其困难:预扫描的CAD 模型很少可用,多视图捕获不切实际,单视图重建存在尺度模糊性。因此,尽管从单幅图像进行可靠的一次性 6D 姿态估计在模拟中起着核心作用,但长期以来人们一直认为它几乎是不可能的。
而机器人与物理世界的交互,恰恰依赖这种精准的空间感知。
近期,由北京智源研究院、清华大学、南洋理工大学等机构联合提出的OnePoseViaGen框架,创新性地将单视图3D生成与生成式领域随机化相结合,为解决“单参考图像估计未知物体6D位姿”这一难题提供了全新思路。

▍创新方案:OnePoseViaGen的工作原理
面对这些挑战,OnePoseViaGen提出“单视图3D生成→尺度-位姿联合优化→生成式领域增强”的端到端解决方案,目标很明确:仅需一张参考图,即可高精度估计未知物体的6D位姿。

OnePoseViaGen 概述
从照片到3D模型
首先,该方法从单张锚点图像出发,通过先进的单视图3D生成技术构建初始的物体模型。具体而言分为三个步骤:
背景噪声抑制:采用实例分割工具(如 SAM 2)对参考图像中的物体区域进行提取,剔除背景干扰,确保后续生成过程聚焦于目标物体;
提取法线信息辅助建模:通过 Image-to-Normal 工具提取物体表面法线向量信息,该信息可反映物体表面凹凸结构(如边缘、凹槽),将其与裁剪后的 RGB 图像共同输入改进版 Hi3DGen 模型;
归一化3D模型输出:Hi3DGen 通过 “法线向量桥接 2D-3D 几何关系” 的机制,在 “物体中心坐标系” 下生成归一化纹理网格模型。该模型保留物体精细几何特征,但尺度为归一化单位(无物理意义),需通过后续模块实现尺度对齐。
解决尺度模糊的关键创新
拿到标准化模型后,核心矛盾转为“如何将归一化模型与真实世界对齐”。
这是OnePoseViaGen最核心的突破。由于模型的尺度和位姿与中的真实物体不匹配,直接使用会导致严重的位姿估计误差,于是研究团队设计了“粗对齐→精对齐”的两步优化策略,解决单视图重建的尺度模糊问题。
粗对齐阶段,系统通过多视角渲染、2D特征匹配并结合深度信息,利用PnP算法估算出一个初始的6D位姿和存在模糊的尺度,随后通过优化3D点云的重投影误差来求解出准确的全局尺度因子;
精对齐阶段则在此基础上,引入类似FoundationPose的迭代优化框架,通过不断渲染、比较并预测位姿增量来精细化位姿,同时在每次迭代后重新优化尺度,直至结果收敛,最终获得在真实世界坐标系下度量精确的模型与位姿。

跨越领域鸿沟
为解决生成模型与真实图像间的差异,团队提出了文本引导的生成式领域随机化技术。
简单来说,就是为同一物体生成多种不同纹理的变体——一个杯子可以有花纹、纯色、磨砂等不同外观,但保持相同几何结构。随后,在虚拟环境中渲染这些变体模型,并随机改变光照、背景和遮挡条件,生成大规模合成数据集。最终,利用该数据集对位姿估计网络进行微调,有效弥合了生成模型与真实图像之间的域差距,显著增强了对各种真实世界挑战的适应能力。
▍实际表现:从实验到真实场景的验证
为验证OnePoseViaGen的性能,研究团队在多个主流6D位姿估计基准数据集上进行了测试,并与现有先进方法进行了对比。在YCBInEOAT数据集上的测试结果显示,OnePoseViaGen在ADD指标上实现了81.27%的平均精度,远超基线方法的45.6%。特别是在低纹理、高遮挡物体上优势更加明显。

与 YCBInEOAT 数据集上的 SOTA 进行比较
在复杂光照场景和高遮挡场景的测试中,OnePoseViaGen同样表现优异,证明其在挑战性环境下的强鲁棒性。
但最令人印象深刻的,还是真实机器人实验。
研究团队使用ROKAE机械臂搭载灵巧手和AgileX PiPER双臂机器人,完成了两项任务:单臂抓取-放置和双臂协作。

在测试中,机器人面对15类不同物体,每类进行30次实验,均表现出高成功率和亚厘米级的精度。即使在物体交接的动态遮挡场景中,系统也能稳定工作,为机械臂提供可靠的抓取姿态指导。
▍结语与展望
OnePoseViaGen的技术突破,对多个领域将产生深远影响。
在工业自动化方面,生产线可以快速适应新产品,无需为每个零件预先建立精细的3D模型,大幅降低自动化改造的成本和时间。
在物流领域,机器人能够处理海量不同形状、尺寸的包裹,真正实现柔性分拣。
在家庭服务机器人方面,机器可以快速学习认识新物体,理解用户的指令,如“拿那个红色的杯子”或“找到电视遥控器”。
甚至在文化遗产保护中,研究人员可以通过简单拍照,快速获取文物的精确三维位置和姿态,为数字化保护提供支持。
这项技术的独特价值在于它极大降低了机器感知世界的门槛。传统的6D位姿估计需要精密传感器、复杂校准流程和详尽的物体模型,而OnePoseViaGen仅需一张普通照片,这种“降维打击”使其具备大规模应用的前景。