人形机器人视觉正成为物理AI的感知层

要点

人形机器人正在推动机器视觉从单纯的检测工具，演进为物理AI（Physical AI）的“感知神经系统”。随着人形机器人逐步从概念验证（PoC）阶段迈向真实工业和商业场景部署，视觉感知正迅速成为最关键的基础使能技术之一。

与在固定且可预测环境中运行的传统工业机器人不同，人形机器人必须持续感知、理解并响应动态变化的周围环境，同时在与人类协同工作的过程中确保安全性。这意味着机器人不仅需要“看见”世界，更需要实时理解场景、识别目标、判断意图并做出相应决策。视觉系统因此成为连接物理世界与人工智能决策能力的核心桥梁，也是实现物理AI的重要感知层。

人形机器人纯视觉与多模态传感融合方案对比

当前行业在人形机器人视觉感知领域正逐步收敛至两大主要技术路线：纯视觉（Pure Vision）与多模态传感融合（Multimodal Sensor Fusion）。尽管这两种架构都以实现空间智能与自主决策为目标，但它们在成本、规模化能力、AI集成方式以及系统鲁棒性等方面，代表着截然不同的技术理念。

以纯视觉AI架构推动人形机器人感知能力规模化

纯视觉方案主要依赖多个2D RGB摄像头，并结合AI模型来估计深度、重建环境以及理解运动。通过去除激光雷达（LiDAR）并降低对专用深度传感器的依赖，该架构显著降低了硬件复杂度、成本、功耗以及系统集成难度。

纯视觉方案也天然契合端到端AI学习框架。随着人形机器人开发者不断追求通用具身智能（Embodied AI）以及基于视觉-语言-动作模型（VLA）的自主能力，这一方向的重要性正持续提升。然而，该方案的代价同样明显：纯视觉架构对GPU与NPU算力提出极高要求，同时需要海量训练数据、仿真基础设施以及实时推理优化能力。此外，由于人形机器人头部结构限制，双目基线较短，也进一步制约了深度精度与远距离感知能力。

目前，包括特斯拉（Tesla）、傅利叶智能（Fourier Intelligence）以及优必选（UBTECH）在内的多家领先人形机器人厂商正在积极推进这一技术路线。其中，特斯拉Optimus是AI原生人形机器人感知体系的典型代表。Optimus采用源自特斯拉自动驾驶（FSD）系统的八摄像头感知架构，并利用占据网络（Occupancy Networks）对可见及部分遮挡环境进行实时重建。

特斯拉的优势不仅体现在传感器层面，更在于其将多年自动驾驶领域积累的核心能力整体迁移至人形机器人领域，包括仿真系统、PB级视频数据集、标注流程、占据网络架构以及神经网络训练框架等。

同时，特斯拉自研Dojo D1训练芯片及Dojo超级计算机的引入，进一步凸显出行业的一个关键趋势：未来人形机器人的竞争力，可能越来越取决于具身AI的训练规模与数据飞轮能力，而不仅仅是单一传感器配置。

这一趋势也反映出自动驾驶技术栈与人形机器人生态正在加速融合。包括占据式建图、边缘AI加速、仿真系统、传感融合以及低延迟感知计算在内的核心技术，正在成为两大行业共同的基础能力。

多模态传感融合在人形机器人中的作用

第二类主要感知架构是多模态传感融合方案，该方案将RGB（红、绿、蓝）摄像头与多种3D感知技术相结合，包括双目视觉、结构光、飞行时间（ToF）以及激光雷达（LiDAR）。该类系统不再完全依赖基于2D视频流的AI推理，而是通过融合多种感知模态，以提升系统的鲁棒性、冗余能力以及环境感知水平。

然而，这类架构也带来了显著的复杂性。随着感知模态数量的增加，标定、时间同步、延迟管理、控制回路稳定性以及多模态数据融合等问题都会变得更加复杂。更重要的是，异构传感架构可能会增加端到端策略学习的难度，并降低基于视觉-语言-动作模型（VLA）的自主系统效率。

Omdia认为，在近期至中期阶段，多模态传感融合仍将是工业级人形机器人不可或缺的技术路径。与纯视觉方案相比——后者即便在单摄像头深度估计中也需要大量算力——多模态融合架构能够更高效地实现边缘端处理，并将数据顺畅传输至GPU平台进行计算。此外，多摄像头配置会指数级增加纯视觉方法的计算负担，从而进一步凸显多模态方案在工程落地中的优势。

分布式感知架构：头部、手部与躯干视觉系统

与传统机器人不同，人形机器人越来越需要采用分布式感知架构，以适配不同的操作任务与工作场景。

人形机器人视觉正成为物理AI的感知层图2

领先人形机器人OEM的感知栈垂直整合趋势

多家领先的人形机器人开发商正逐步构建自有的感知架构，而不再完全依赖第三方视觉供应商。

特斯拉（Tesla）强调垂直整合的纯摄像头AI感知体系。
Figure AI开发了Helix 02视觉-运动神经网络，将所有机载传感器直接连接至执行器。
傅利叶智能（Fourier Intelligence）将视觉、听觉与触觉感知融合为完整的多感官交互系统。
波士顿动力（Boston Dynamics）持续为Atlas开发专有感知软件。
优必选（UBTECH）开发了被动式双目视觉系统，能够实时生成高密度深度图。

这一趋势表明，人形机器人感知系统正逐步从“碎片化组件市场”向高度集成的全栈生态体系演进。视觉供应商也正在积极布局这一人形机器人发展机遇。随着具身智能的快速增长，全球视觉与传感器供应链正迎来新的重要机会窗口。

人形机器人视觉正成为物理AI的感知层图5

许多供应商正从视觉相机硬件方案转向集成式感知平台，将传感、标定、同步、嵌入式AI以及机器人软件能力整合为一体。

人形机器人市场正在推动传统机器视觉供应商从以检测为核心的解决方案，向具身AI（Embodied AI）平台转型。康耐视（Cognex）、基恩士（Keyence）、Photoneo、Zivid以及Basler等公司，正积极拓展至视觉引导操作、机器人引导、自主移动机器人（AMR）、边缘AI视觉以及紧凑型3D传感等领域。

然而，竞争格局正在快速变化。人形机器人OEM厂商越来越倾向于采用高度集成的感知生态系统，而非单一视觉相机或孤立算法。能够提供同步多传感器架构、嵌入式计算能力、标定工具、机器人中间件，以及GMSL（千兆多媒体串行链接）或FPD-Link（平板显示数据链路）接口和AI加速能力的供应商，将更有可能获得战略优势。相反，如果传统机器视觉厂商无法向更广义的物理AI生态系统供应商转型，将面临被逐步 “硬件化”和商品化的风险。

边缘AI半导体对人形机器人空间智能的影响

人形机器人自主能力的演进，正越来越依赖于新一代AI半导体的发展。这些芯片专为边缘端推理、多模态融合以及实时感知加速而优化，是支撑机器人空间智能能力提升的关键基础设施。

多家半导体厂商正在积极布局这一机遇：

三星电子（Samsung Electronics）正在开发具备AI能力的人形机器人图像传感器
安森美半导体（Onsemi）推出Hyperlux HDR图像传感器，针对复杂光照环境进行优化
安霸（Ambarella）专注于低功耗边缘AI感知SoC
意法半导体（STMicroelectronics）与Leopard Imaging联合开发面向人形机器人的多模态视觉模组
莱迪思半导体（Lattice Semiconductor）聚焦机器人低功耗传感融合架构

这些布局显示出，半导体产业正在围绕人形机器人空间智能加速构建专用AI感知基础设施。

竞争格局正加速向低功耗边缘AI处理、多模态融合以及实时感知加速方向演进。下一阶段的竞争护城河不再只是传感器本身，而是空间智能能力（spatial intelligence）。尽管技术进展迅速，行业仍面临多项尚未解决的关键挑战：人形机器人在长期运行稳定性、动态光照适应、运动模糊与振动干扰，以及机器人行进过程中的实时感知能力方面仍存在明显不足。

与此同时，行业正朝着感知、仿真、AI算力与运动控制基础设施更紧密融合的方向发展。根据Omdia预测，到2030年，通用型具身智能机器人出货量将超过44.6万台，将带动超过220万颗RGB/3D机器视觉相机以及40万余颗激光雷达（LiDAR）的需求。

然而，长期来看，行业胜出者未必是拥有最佳机器视觉相机或深度传感器的企业，而更可能是具备完整物理AI平台能力的厂商，其核心优势体现在以下方面的系统整合：

AI原生感知能力
多模态传感融合
仿真能力
运营数据飞轮
低功耗边缘AI计算
运动控制系统
视觉-语言-动作（VLA）模型

在物理AI时代，“感知”不再只是“看见世界”，而是“驱动自主行动”的能力。因此，人形机器人视觉市场正在从单一组件竞争，演进为围绕全栈空间智能的系统性竞争。

Omdia《人形机器人的视觉感知》报告提供了全面的分析与预测，帮助客户把握人形机器人视觉、传感与物理AI感知市场的演进趋势。

本文作者

沈悦沁

(Yueqin Shen)

分析师，制造技术

文章版权和解释权归微信平台Omdia所有

Omdia隶属于Informa TechTarget, Inc. d/b/a Informa TechTarget（纳斯达克代码：TTGT），是一家全球领先的技术研究与咨询机构。依托对科技市场的深刻洞察、与行业领导者的深入对话以及庞大数据资源，Omdia帮助客户洞察趋势、把握机遇，抢占市场先机。从研发到投资回报，我们识别最具潜力的机遇，推动科技产业持续发展。

omdia.com.cn

Joyce.Liu@omdia.com