摘要

Abstract

人形机器人技术正在迅速发展，制造商推出了针对特定场景量身定制的多样化异构视觉感知模块。在各种感知范式中，基于占用的表示已被广泛认为特别适合人形机器人，因为它提供了丰富的语义和三维几何信息，这对于全面理解环境至关重要。在这项工作中，我们提出了一种专为人形机器人量身定制的多模态占用感知系统，涵盖完整的硬件和软件堆栈，包括传感器配置、数据采集、数据标注和感知网络。

项目链接：https://humanoid-occupancy.github.io/#

我们的框架采用先进的多模态融合技术来生成基于网格的占用输出，对占用状态和语义标签进行编码，从而为任务规划和导航等下游任务提供整体环境理解。为了应对人形机器人的独特挑战，我们克服了运动学干扰和遮挡等问题，并建立了有效的传感器布局策略。

此外，我们还开发了第一个专门针对人形机器人的全景占用数据集，为该领域的未来研究和开发提供了宝贵的基准和资源。网络架构融合了多模态特征融合和时序信息集成，确保了鲁棒的感知。

总体而言，人形占用为人形机器人提供了有效的环境感知，并为标准化通用视觉模块奠定了技术基础，为人形机器人在复杂的现实场景中的广泛部署铺平了道路。

传感器布局和数据采集

传感器布局：我们的传感器由 6 个摄像头和一个激光雷达组成。 6 个摄像头采用标准 RGB 传感器，前后各布一，两侧各布两。相机的水平视场角为 118 度，垂直视场角为 92 度。 LiDAR 采用 40 线 360 度全向 LiDAR，垂直视场角为 59 度。

数据采集：我们使用与人形机器人具有相同传感器配置的可穿戴设备来收集数据。身高约 160 厘米的人类数据采集者将其直接戴在头上，以确保传感器的高度与机器人上最终安装的高度相匹配。增加了颈部稳定器，以防止收集时摇头，收集者的行走速度限制在不超过每秒1.2米，转弯角速度不超过每秒0.4弧度。

注释管线

占用生成管道

注释过程分为三个部分：

首先，静态和动态对象是分开处理的。动态对象直接使用边界框进行注释。对于静态对象处理，我们首先去除动态对象的点云，然后将剩余的静态点叠加到多帧点云上，并进行点级语义标注。

最后，将动态和静态场景及其注释进行合并：叠加的静态背景点与逐帧点云的自我坐标系对齐，而动态前景点则根据每帧动态物体的姿态拼接到点云中。该合并的点云直接体素化，无需泊松重建即可获得基本事实。

多模态融合网络

我们的占用感知模型接受多模态输入，包括 LiDAR 点云和 6 个针孔相机图像。我们使用在自动驾驶中得到广泛验证和采用的鸟瞰图（BEV）范式进行特征提取和特征融合。由于机器人传感器在运动过程中会发生俯仰和滚动运动，因此必须将传感器数据转换为重力对齐的以自我为中心的参考系，以符合纯电动汽车的假设。具体来说，我们通过两个模态特定的特征提取分支提取激光雷达和相机特征，然后通过 Transformer Decoder 进行多模态特征融合。最终的占用结果是根据融合的 BEV 特征进行预测的。

实验与结果

对我们收集的数据进行了实验，包括 180 个训练片段和 20 个验证片段。用于评估的指标是 mIoU 和 rayIoU。在自我坐标系中，X 轴和 Y 轴的感知范围设置为[-10m，10m]，Z 轴的感知范围设置为[-1.5m，0.9m]。

基准