Humanoid Occupancy：首个多模态人形机器人感知系统！解决运动学干扰和遮挡问题

点击下方卡片，关注“具身智能之心”公众号

点击按钮预约直播

人形机器人技术正在飞速发展，各大制造商纷纷推出针对特定场景、形态各异的异构视觉感知模块。在各种感知范式中，基于占用的表示（occupancy-based representation）已被广泛认为特别适合人形机器人，因为它能同时提供丰富的语义信息和三维几何信息，这对于全面理解环境至关重要。

本工作提出了 Humanoid Occupancy（人形机器人占用感知系统），这是一个广义的多模态占用感知系统，它集成了硬件与软件组件、数据采集设备以及一套专用的标注流程。本文的框架采用先进的多模态融合技术，生成基于网格的占用输出（grid-based occupancy outputs），这些输出同时编码了空间占用状态和语义标签，从而为任务规划与导航等下游任务提供了全面的环境理解能力。为应对人形机器人的独特挑战，本文克服了诸如运动学干扰（kinematic interference）和遮挡（occlusion）等问题，并确立了一套有效的传感器布局策略。此外，本文还开发了首个专为人形机器人设计的全景占用数据集，为该领域未来的研究与发展提供了宝贵的基准和资源。网络架构融合了多模态特征和时序信息，以确保感知的鲁棒性。总的来说，Humanoid Occupancy 为人形机器人提供了有效的环境感知能力，并为标准化通用视觉模块奠定了技术基础，从而为复杂现实场景中人形机器人的广泛部署铺平了道路。

论文标题：Humanoid Occupancy: Enabling A Generalized Multimodal Occupancy Perception System on Humanoid Robots

论文链接：https://arxiv.org/abs/2507.20217

项目主页：https://humanoid-occupancy.github.io

分享介绍