让机器“看懂”物体如何摆放:单视图3D生成新框架,解决机器人空间感知核心难题

机器人大讲堂 2025-09-30 18:05

你有没有想过,快递机器人分拣包裹时,是如何精准判断该把哪个包裹放进哪个货架的?当维修工戴上AR 眼镜检修机器,眼前的虚拟图纸为何能严丝合缝地“贴”在零件上?这些酷炫场景的背后,都离不开一项关键技术——6D 位姿估计简单来说,它就是让机器不仅能感知物体“在哪儿”(3D 位置),还能识别它“怎么摆”(3D 姿态)。就像我们一眼就能看出杯子是立着还是倒着、离自己有多远一样,机器也正在学会这样的空间洞察力。


这项技术的重要性不言而喻。工业机器人需要它来精准抓取零件;自动驾驶汽车依靠它识别周围车辆的位置和朝向;AR应用则用它将虚拟物体准确叠加到真实世界中。


然而,这项任务在现实环境中仍然极其困难:预扫描的CAD 模型很少可用,多视图捕获不切实际,单视图重建存在尺度模糊性。因此,尽管从单幅图像进行可靠的一次性 6D 姿态估计在模拟中起着核心作用,但长期以来人们一直认为它几乎是不可能的。


而机器人与物理世界的交互,恰恰依赖这种精准的空间感知。


近期,由北京智源研究院、清华大学、南洋理工大学等机构联合提出OnePoseViaGen框架创新性地将单视图3D生成与生成式领域随机化相结合,为解决“单参考图像估计未知物体6D位姿”这一难题提供了全新思路。


让机器“看懂”物体如何摆放:单视图3D生成新框架,解决机器人空间感知核心难题图1


创新方案:OnePoseViaGen的工作原理


面对这些挑战,OnePoseViaGen提出单视图3D生成尺度-位姿联合优化生成式领域增强的端到端解决方案,目标很明确:仅需一张参考图,即可高精度估计未知物体的6D位姿。

 


让机器“看懂”物体如何摆放:单视图3D生成新框架,解决机器人空间感知核心难题图2

OnePoseViaGen 概述


从照片到3D模型


首先,该方法从单张锚点图像出发,通过先进的单视图3D生成技术构建初始的物体模型。具体而言分为三个步骤:


背景噪声抑制采用实例分割工具(如 SAM 2)对参考图像中的物体区域进行提取,剔除背景干扰,确保后续生成过程聚焦于目标物体;


提取法线信息辅助建模通过 Image-to-Normal 工具提取物体表面法线向量信息,该信息可反映物体表面凹凸结构(如边缘、凹槽),将其与裁剪后的 RGB 图像共同输入改进版 Hi3DGen 模型;


归一化3D模型输出Hi3DGen 通过 法线向量桥接 2D-3D 几何关系” 的机制,在 物体中心坐标系” 下生成归一化纹理网格模型。该模型保留物体精细几何特征,但尺度为归一化单位(无物理意义),需通过后续模块实现尺度对齐。


解决尺度模糊的关键创新


拿到标准化模型后,核心矛盾转为如何将归一化模型与真实世界对齐


这是OnePoseViaGen最核心的突破。由于模型的尺度和位姿与中的真实物体不匹配,直接使用会导致严重的位姿估计误差,于是研究团队设计了粗对齐精对齐的两步优化策略,解决单视图重建的尺度模糊问题。


粗对齐阶段,系统通过多视角渲染、2D特征匹配并结合深度信息,利用PnP算法估算出一个初始的6D位姿和存在模糊的尺度,随后通过优化3D点云的重投影误差来求解出准确的全局尺度因子;


精对齐阶段则在此基础上,引入类似FoundationPose的迭代优化框架,通过不断渲染、比较并预测位姿增量来精细化位姿,同时在每次迭代后重新优化尺度,直至结果收敛,最终获得在真实世界坐标系下度量精确的模型与位姿。


让机器“看懂”物体如何摆放:单视图3D生成新框架,解决机器人空间感知核心难题图3


跨越领域鸿沟


为解决生成模型与真实图像间的差异,团队提出了文本引导的生成式领域随机化技术。

简单来说,就是为同一物体生成多种不同纹理的变体——一个杯子可以有花纹、纯色、磨砂等不同外观,但保持相同几何结构。随后,在虚拟环境中渲染这些变体模型,并随机改变光照、背景和遮挡条件,生成大规模合成数据集。最终,利用该数据集对位姿估计网络进行微调,有效弥合了生成模型与真实图像之间的域差距,显著增强了对各种真实世界挑战的适应能力。


实际表现:从实验到真实场景的验证


为验证OnePoseViaGen的性能,研究团队在多个主流6D位姿估计基准数据集上进行了测试,并与现有先进方法进行了对比。在YCBInEOAT数据集上的测试结果显示,OnePoseViaGenADD指标上实现了81.27%的平均精度,远超基线方法的45.6%。特别是在低纹理、高遮挡物体上优势更加明显。


让机器“看懂”物体如何摆放:单视图3D生成新框架,解决机器人空间感知核心难题图4

 YCBInEOAT 数据集上的 SOTA 进行比较


在复杂光照场景和高遮挡场景的测试中,OnePoseViaGen同样表现优异,证明其在挑战性环境下的强鲁棒性。


但最令人印象深刻的,还是真实机器人实验。


研究团队使用ROKAE机械臂搭载灵巧手和AgileX PiPER双臂机器人,完成了两项任务:单臂抓取-放置和双臂协作。


让机器“看懂”物体如何摆放:单视图3D生成新框架,解决机器人空间感知核心难题图5


在测试中,机器人面对15类不同物体,每类进行30次实验,均表现出高成功率和亚厘米级的精度。即使在物体交接的动态遮挡场景中,系统也能稳定工作,为机械臂提供可靠的抓取姿态指导。


结语与展望


OnePoseViaGen的技术突破,对多个领域将产生深远影响。


在工业自动化方面,生产线可以快速适应新产品,无需为每个零件预先建立精细的3D模型,大幅降低自动化改造的成本和时间。


在物流领域,机器人能够处理海量不同形状、尺寸的包裹,真正实现柔性分拣。


在家庭服务机器人方面,机器可以快速学习认识新物体,理解用户的指令,如拿那个红色的杯子找到电视遥控器


甚至在文化遗产保护中,研究人员可以通过简单拍照,快速获取文物的精确三维位置和姿态,为数字化保护提供支持。


这项技术的独特价值在于它极大降低了机器感知世界的门槛。传统的6D位姿估计需要精密传感器、复杂校准流程和详尽的物体模型,而OnePoseViaGen仅需一张普通照片,这种降维打击使其具备大规模应用的前景。







声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
宇树机器人惊现漏洞,攻击者能掌控一支机器人大军!官方回应了
又有两家机器人头部企业宣布:冲刺港股IPO!
【征稿】“电力机器人”专题
工博会新品大揭秘①:埃斯顿、拓斯达、新松机器人等企业新品齐亮相
NVIDIA 利用全新开源模型与仿真库加速机器人研发进程
工信部等六部门:《机械行业稳增长工作方案(2025—2026年)》,发展智能农机、服务和特种机器人等智能民生装备
特斯拉工人被故障机器人打成重伤,索赔3.6亿
埃斯顿携全新机器人新品、行业解决方案、AI+数字化技术闪耀工博会!
不做聊天机器人的苹果,做了个聊天机器人
2025年全球物业管理机器人解决方案市场规模及未来发展趋势
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号