上下游协同发展,推动具身智能产业进步

思瀚产业研究院 2025-10-04 12:00

(一)具身智能产业链概述

具身智能产业链涵盖多个环节,上游包括零部件和基础软件,中游包括整机系统研发设计、本体测试、生产制造、系统集成,下游覆盖科研教育、商业服务、工业制造、高危作业、医疗康养、家庭服务等应用场景。其中上游零部件可以划分成感知器件(如视觉、力/力矩、触觉及其他传感器等),运动器件(如电机/控制、减速器、丝杠等),控制交互(如芯片、动力系统等);基础软件包括操作系统、控制算法、大模型和仿真软件等。中游具身智能机器人具有多样化的本体结构,包括臂式/轮式/足式/履带/复合/人形/仿生及其他无人系统等,其中人形以其更高拟人性、更强交互性和对环境的适配性,成为最具关注度的形态。

具身智能产业链

上下游协同发展,推动具身智能产业进步图1

资料来源:前瞻产业研究院,中国银河证券研究院,思瀚产业研究

从技术与产业热点上看,人形机器人应用正处于资本期望膨胀期,而零部件正待从期望值低谷回升。2025是人形机器人量产元年,技术与产业发展需求、政策方向均支持应用场景落地,积累数据反哺产品迭代。当前产业发展核心卡点在具身大模型,重点问题在数据瓶颈和模型架构探索,区别于智能汽车、AGV/AMR、四足机器人等产品,人形机器人操作重要性大幅提升,多指灵巧手设计(含触觉传感器研究)、灵巧操作数据集、操作大模型成为提升功能性的关键。本体出货量尚小限制了当前各零部件生产的规模效应,研发投入多而现阶段创收少,对零部件企业资金实力提出要求,同时参与者快速增加,带来行业竞争加剧。但随着量产临近,具备优质大客户资源、量产能力强的零部件厂商,或制造能力突出、专业化全维度协助初创企业落地的代工企业有望脱颖而出。

(二)上游:软硬件供应是具身智能发展的基础

1.核心零部件概览

核心零部件占具身智能整机成本比例较高,涉及技术原理、材料、工艺等多领域,是机器人实现感知、运动、推理决策的硬件基础。主要包括运动系统(电机,减速器,丝杠等,其共同集成关节模组)、感知系统(传感器等)、控制交互(芯片、电池、充电系统等)。从产业角度看,零部件行业的发展需要关注规模量产后BOM价值占比、原有市场空间、行业竞争格局(关注技术难度、工艺难度、扩产难度、海内外差距等)、机器人方案迭代趋势等。此外,目前本体厂商硬件方案中的增量变化集中在灵巧手、触觉传感器、轻量化、散热系统、高功率/转矩密度电机等,伴随量产时点靠近,相关行业有望获得增益。

2.关节执行器

人形机器人关节设计需综合考虑动态运动控制、平衡性、负载能力、经济性等多重因素,高扭矩关节(如腕部、肩部、腰部、髋部关节)对旋转幅度要求高,多使用旋转执行器。高负载关节(如上臂、下臂、大腿、小腿关节)需要有较优的承重和支撑能力,线性执行器成为重要选择之一。旋转执行器驱动方案主要有刚性驱动、弹性驱动、准直驱动三种。

不同驱动方案影响减速器、电机架构等零部件的种类型号。其中刚性驱动主要由高减速比减速器(如谐波减速器)、电机、编码器、高刚性力矩传感器(可选)和控制板等组成,精度高,但实现的运动能力有限,能量效率和安全性相对不足。弹性驱动非目前主流的人形机器人驱动方案。准直驱动主要由低减速比减速器(如行星减速器)、高扭矩密度电机、编码器和控制板等组成,能量效率高,但精度一般。目前特斯拉旋转执行器全部都是谐波减速器+电机方案,但出于经济性考虑,行星减速器+电机方案亦被很多国内本体企业选择用于一些大负载关节,如宇树科技、智元机器人等。

未来搭配线性关节的机器人本体占比可能提升。线性执行器相比旋转执行器优势体现在:1)空间利用率高,可以纵向分布,从而配备更大的电机;2)满足柔性需求,有些狭窄地方旋转关节太大机器人难以进入;3)螺杆传动机构通过合理设计可以具备自锁能力,低耗能。目前已采用线性执行器本体:特斯拉,开普勒,小米,小鹏,智澄AI等。尝试采用线性执行器本体:众擎,优必选等。

关节在机器人中重量及BOM成本占比超过50%,是轻量化核心之一。关节轻量化可以通过材料选择、结构设计、工艺改进实现。

材料选择上:铝合金、镁合金(或铝镁合金)、碳纤维和高性能工程塑料PEEK等材料。

PEEK材料:可应用于谐波减速器钢轮和柔轮,摆线减速器线和针轮,及其他关节材料、轴承、齿轮等部件。

波士顿动力Atlas掌指关节使用PEEK-石墨烯复合材料,特斯拉Gen2使用PEEK。

结构设计上:关节模组集成、拓扑优化。

关节模组集成:Gen2提高关节集成度,优必选walkerX采用一体化伺服模组。

拓扑优化,精密分布材料,且优化范围扩大(从单一零部件至整机)。如特斯拉Gen2较Gen1,天工Ultra。工艺上:MIM/3D打印工艺

MIM:适用于大批量生产精密微型零件,支持贵金属、钛合金、钴铬、镍/镍基高温合金、钼/钼铜和颗粒复合材料等,和材料轻量化相辅相成。Figure在尝试采用。

3D打印:采用点阵(网格)结构减少实体材料用量,或一体化打印原本通过多个构件组合的零件等,如优必选walkerS2相比S1采用了3D打印减重。

3.电机

具身智能机器人对关节电机的要求可概括为满足尺寸限制、高转矩密度(有限空间提高驱动力、快速动态响应)、低转矩波动(精密操作)、高过载能力(高爆发力、大转矩输出)、高结构强度(抗冲击)。

目前已经用于机器人的电机包括无框力矩电机(用于Optimus旋转执行器)、空心杯电机(用于灵巧手手指关节)、无刷有齿槽电机(可用于灵巧手大拇指及绳驱版手腕处)。

无框力矩电机仅包括转子和定子,没有轴、轴承、外壳或端盖,可集成到机械结构中,具备转矩密度高、响应速度快、稳定性强、控制精度和集成度较高的优势,在散热上以结构散热为主,还需进一步优化。

空心杯电机无冲片齿槽结构和铁芯,减少了电机运行时磁阻力矩,降低输出转矩波动,同时消除了铁芯涡流效应引起损耗,减少了电机运行时的能量损耗,适用于高速、小型、高精度场合,但扭矩较小需搭配精密行星减速箱,结构紧凑散热较弱,高精度依赖严格工艺和设备要求,成本较高。

无刷有齿槽电机转矩密度高于空心杯电机,适合更高负载、预留空间更大的场合。但存在齿槽转矩影响精度,铁芯涡流效应引起能量损耗,噪声相对更大。基于其成本优势,且绳驱版灵巧手将驱动电机集成到手腕手臂处空间更足,无刷有齿槽电机在机器人中应用范围可能扩大。

按关节拓扑结构分,常见的机器人关节电机拓扑包括内转子径向磁通永磁电机、外转子径向磁通永磁电机和轴向磁通永磁电机。特斯拉等机器人本体用的无框力矩电机主要是内转子结构。而宇树科技、本末科技、灵足时代的关节模组则采用外转子电机+行星减速器的准直驱模式,主要由于外转子电机较内转子电机具备更大转矩,其构成的准直驱执行器反驱性好、机械阻抗低,使机器人抗冲击性和动态响应性提升。

基于对更高转矩密度的需求,轴向磁通电机关注度提升,其较之径向磁通电机轴向长度短,结构紧凑,转矩/功率密度高,目前“青龙”机器人、广汽GoMate已尝试采用。但当前轴向磁通电机高扭矩持续输出时存在较严重的发热严重,批量化生产工艺难度高、材料利用率低,限制了其广泛应用。

4.减速器

减速器是连接动力源和执行机构的中间体,能够匹配转速和传递转矩。按照控制精度可划分成一般传动减速器和精密减速器。精密减速器主要包括谐波减速器、RV减速器、行星减速器、摆线针轮减速器等。

减速比(减速装置的传动比)/扭矩、大小/重量、精度、价格等是选择减速器的主要参考因素。谐波减速器具备高精度特性,但受制于柔轮反复性变带来的寿命折损,目前主要用于机器人小臂、腕部等轻负载关节,并不适用于高负载强冲击场景。行星减速器结构简单,成本较低,但具备较大传动间隙,适用于对精度要求不高的末端执行器。RV减速器常用于工业机器人重负载部位,以及汽车、运输、港口码头等行业,但由于重量和体积偏大,并不适配对运动灵活性有一定要求的机器人本体。

随着材料和工艺不断进步,摆线针轮减速器凭借“精度高于行星、负载优于谐波、体积小于RV”优势,逐渐成为人形机器人关节构成的重要考量。我们认为,未来各类减速器应用并非完全互斥,而将根据不同应用场景要求进行灵活选择。

5.丝杠

丝杠是一种将旋转运动转化为直线运动的机械传动装置,是工具机械和精密机械上常见的部件。在人形机器人中使用的丝杠产品包括滚珠丝杠和行星滚柱丝杠,前者可用于构成灵巧手,后者主要构成线性执行器。

滚珠丝杠下游应用更宽泛,行星滚柱丝杠工艺难度更高,国产率更低。滚珠丝杠下游是各类型通用装备,如注塑机器、机床等,应用较宽泛。

性能上,行星滚柱丝杠相比滚珠丝杠具备更强的承载能力、刚度和抗冲击能力,以及更快的相对旋转速度和更长的寿命,更适合对“高效率、高精度、高可靠”有要求的场合。但其对上游机器设备的要求及加工制造难度高于滚珠丝杠,国产化率更低。

丝杠较成熟的加工方式可以分为车削、铣削、磨削、轧制。磨削产品精度和寿命高,但效率和成本控制上不及车削。磨削精度可达G1级,表面粗糙度值较低,产品寿命长,但加工工序多、效率较低、对磨床等设备要求高,整体制造成本偏高。

内螺纹磨削加工效率在提升,“以车代磨”得到尝试。现阶段滚珠丝杠副中螺母主要研磨,丝杠可冷轧/研磨,冷轧偏批量制造,精度更低,磨制偏精密制造。同时“以车/铣代磨”凭借更低成本更高效率特征,运用也逐渐广泛。行星滚柱丝杠副螺距误差要求更严格,加工难度更大。当前人形机器人对行星滚柱丝杠精度要求普遍为C3-C5,随着产品量产临近和落地应用加速,对精度、效率、一致性与成本控制综合要求提升。在核心步骤螺纹加工环节,研磨为主,伴随技术/工艺进步,基于磨削工艺的内螺纹加工效率在提升,砂轮材质也逐步优化以减少砂轮磨损带来的中径锥度异常。同时,亦有厂家尝试用高精度数控车床和高精度成型刀片通过车削完成螺纹加工。

6.灵巧手

当前机器人灵巧手技术路径尚未统一:手指数量有2/3/4/5指,自由度覆盖6dof至20+dof,驱动传动方式有全直驱、齿轮/蜗轮蜗杆传动、连杆传动、腱绳传动等。灵巧手种类多元,按自由度数量可以分为全驱动和欠驱动;按驱动方式可以分为液压驱动、电机驱动、气压驱动和形状记忆合金驱动;按机械传动形式可以分为腱传动、连杆传动、齿轮/蜗轮蜗杆传动;按感知技术可以分为内部感知和外部感知。目前电机驱动是灵巧手驱动主流方式,因为液压系统维护和制造成本较高,波士顿动力液压版Atlas已于2024年被电驱动版取代。

传动方式上,特斯拉Optimus三代灵巧手采用“腱绳+精密行星减速器+微型丝杠”,节省空间实现减重,但具有刚度和位置精度有限的问题。

除此之外,星动纪元初代手选择齿轮方案,因时机器人选择连杆传动,但二者具有柔性欠缺、对手内空间配置要求较高的不足。

当前灵巧手领域的技术进步主要体现在:1)从单一款式扩充至产品矩阵:因时现有产品为12dof,计划后续推出高自由度版;灵心巧手L30推出直驱和绳驱两种版本;灵巧智能推出3指8dof性价比版DexHand21S和5指22dof高自由度版DexHand21Pro;雷赛今年推出普及版11dofDH116和高自由度(20dof)DH2015。2)传感反馈更多元:标配触觉比例提升(电容式或压阻式),视触觉/电磁式指尖指腹可自主选配,手指近端/手掌/手背后续可能加电子皮肤,部分场景应用可能集成温度传感器。3)集成度提升:将驱动单元从手掌集成到手腕,强脑科技Revo2内置集成三维触觉传感器,因时推出驱控一体微型伺服电缸,灵心巧手“工业大师版”配备驱控一体电缸模块,兆威机电采用高性能MCU单芯片整合多电机控制。

7.传感器

传感器是助力机器人从程序控制逐步走向感知型和智能型的重要组成部分。目前人形机器人传感器可分为内部传感器和外部传感器,前者测量自身状态的内部传感器,包括位置、速度、力传感器等,后者测量与机器人作业有关的外部环境及状态,包括视觉、触觉等各种感官传感器。

(1)力传感器

力传感器能将力的量值转成相关的电信号,检测压力、张力、重量、扭矩、应变和内应力等,是动力设备、工程机械及工业自动化系统等领域的核心部件之一。按照测量维度划分,力传感器可以分成一维至六维等不同种类,如果力的方向和作用点都是固定的,那么只需选择一维力传感器。如果力的方向随机变化,力的作用点保持不变,并与传感器的标定参考点重合或接近,那么可以选择三维力传感器。如果力的方向和作用点都在三维空间中随机变化,那么应该选择六维力传感器进行测量。

六维力传感器按照测量原理可分为电阻应变式、电容式、光电式、压电式、压阻式等。其中应变式基于应变片的电阻-应变效应实现力/力矩信号的检测,具有精度高、测量范围广、技术成熟的优点,是目前应用最广泛的类型,但其不足之处在于桥路受外界因素影响大,有蠕变和零漂,且布线复杂,封装工艺要求高。电容式通过设置一对电容,由电极片间的相对空隙变化来实现多维力的测量,线性响应好,动态范围宽,易实现非接触测量,但抗干扰差,存在寄生电容的问题。光电式通过弹性体的变形调制光波,使接收器接收到的光强发生变化,具备高分辨率、与视觉技术相容性好、抗电磁干扰强优点,但结构刚度低,对测量环境要求高,成本较高。压电式主要基于压电效应工作,适合动态测量,但无法长时间作用静态力。压阻式原理为两个相对(或相邻)电极之间敏感材料的电阻随作用压力载荷的变化而变化,动态范围宽,负载能力强,但存在迟滞和非线性。

在人形机器人领域,六维力传感器可用于力控反馈,步态平衡,重心和安全控制,地面识别等,可配置在手腕、脚踝和灵巧手(在研,难度较大)。特斯拉OptimusGen2将其用于手腕和脚踝。

(2)惯性传感器

惯性传感器(IMU)主要由加速度计、陀螺仪和磁力计构成,是将物体加速度、位置和姿势转化成电信号的装置。在人形机器人领域,其通常可安装在胸腔、骨盆、灵巧手/脚等重要部位,发挥导航、测量、稳控的作用。目前IMU方案已经被集运用在机器人产品中,如特斯拉OptimusGen2、UCLA的ARTEMIS、波士顿动力Atlas/小米CyberOne。

(3)视觉传感器

机器视觉通过光学装置和传感器等硬件接收物体图像,叠加软件算法处理图像,以获得所需信息并控制机器人运动。其主要由光学元器件(工业相机与工业镜头、光源等)、传感器、图像采集器、PC平台、视觉处理软件、控制单元等组成。机器视觉最常见的用途是目视检查和缺陷检测、定位和测量零件,以及对产品进行识别、分类和追踪,广泛用于3C电子(25%)、汽车(11%)、半导体(10%)、医疗(8%)、教育、交通运输和安防等多个行业(2022年数据)。不同人形机器人产品采用的视觉方案不尽相同。特斯拉Optimus和优必选Walker采用了多目视觉,波士顿Atlas采用激光雷达加ToF深度相机,宇树科技H1选择深度相机+激光雷达。

(4)触觉传感器

触觉传感器能够模拟人类触觉并感知物体形态、质地、压力等信息。根据工作原理不同,其可以大致分为压阻式、电容式、压电式、光电式、电磁式、气压式、摩擦发电式等。压阻式触觉传感器将外界机械刺激转化为材料或器件的电阻值变化。电容式触觉传感器借助外部载荷引起电介质形变,改变电极之间的距离和正对面积,进而导致电容变化。

压电式触觉传感器利用材料受到外力作用时产生电荷的特性,将施加于压电材料的外部载荷转换为可检测的电势差。光电式触觉传感器通过观察光信号来检测接触产生的形变。电磁式触觉传感器基于外力作用下磁性材料位移或形变,从而使磁场发生改变的现象,通过霍尔传感器检测到的磁通量变化反映外力的大小与方向。

8.芯片和算力

机器人大小脑芯片一般选用大算力芯片,特斯拉采用自研FSD芯片,国内本体厂主流选用英特尔x86芯片和英伟达Jetson,国产芯片亦被尝试。特斯拉机器人Optimus主芯片采用FSDHW4.0(端侧)+DojoD1(云端训练芯片)组合。宇树G1和机器狗Go2采用8核CPU+高算力模组NvidiaJestonOrin(EDU款配备),H1和机器狗B2标配IntelCorei5(平台功能)/IntelCorei7(用户开发),选配IntelCorei7或NvidiaJetsonOrinNX。

智元灵犀X2基础算力采用瑞芯微RK3588*2,Ultra版搭配NvidiaOrinNX(16GB157TOPS)。优必选WalkerX选用了Inteli7-8665U(双路,1.9GHz)+NVIDIAGT1030显卡(384核心)。众擎通用人形机器人PM01采用8核CPUIntelN97作基础算力,同时教育版搭配NvidiaJestonOrin。

英伟达8月25日发布了新一代机器人专用芯片JetsonThor,AI计算能力是上一代的7.5-10倍,能效是上一代的3.5倍,I/O吞吐量提升10倍,内存容量也提升两倍。这些能够帮助机器人更好处理端侧多元传感器数据和进行视觉推理,提高性能并降低延迟。当前银河通用、智元、优必选、众擎、联影医疗等均将搭载最新JetsonThor芯片。期待AI芯片性能提升助力具身大模型实现新突破。

9.电池&续航&散热

目前很多人形机器人还是采用圆柱形锂电池,但体积重量限制+工业场景连续少间断作业需求,要求锂电池能量密度高和瞬时放电。如:欣旺达高镍高硅化学体系加轻量化结构设计提高电池能量密度;亿纬锂能采用掺硅负极高镍正极、超薄顶盖设计、全极耳设计提高能量密度和极速快充。新电池方案则包括半固体/全固态:广汽集团GoMate采用全固态电池方案,续航达6h。此外,提高续航亦可通过结构设计和算法优化:

1)结构设计:采用线性关节自锁设计,无需电机运行保持站立;优必选将1个大电池包分成2个小电池包,支持热插拔自主快速换电;跨维智能W1等采用轮式底盘,可将更大电池包置于底部。

2)算法优化:通过控制算法让部分电机而非全部电机工作。散热处理上,主要有冷却降温、材料散热、控制算法优化3种方式。

1)冷却降温:主要包括风冷(普通工况多用,可用于感知系统、控制系统、能源系统),液冷(动力系统,能源系统、计算系统等),相变冷却等方式;

2)材料散热:采用高导热复合材料,比如石墨烯涂层、铝合金基体、碳纳米管增强材料,提高电机外壳的热传导性能,如把电机芯片贴上散热硅胶,然后贴在锯齿状铝片上;

3)控制算法:让不需要工作的电机低功率运行。单纯物理降温需要时间,在持续工作的情况下降温效果不佳。控制算法降温效果可大幅提升,但难度较大。

10.数据、算法和大模型。

(1)数据

机器人技能学习所依赖的数据源可以分成两种,一种是机器人经验数据,以直接执行策略或遥操作为代表;第二类是人类数据,包括人类动作捕捉数据和人类活动视频数据。机器人经验数据表现出较小的形态差异,可以直接应用于策略学习,但通常较为稀缺。相反,人类数据更为丰富,但由于人类与机器人在身体比例、关节配置和质心分布等上存在明显差异,此类数据的使用依赖有效的重定位解决方案,且收集到的人类数据多数仅有本体感知,缺乏交互中的感官信息输入。

另外,通过算法、仿真或其他人工方法生成合成数据,并构建虚拟环境,让AI智能体在其中学习和训练,可一定程度上降低真机数据不足的限制。目前研究方法之一是多层次数据融合。比如GR00TN1底层采用Web图文数据用于VLM预训练,人类第一视角视频用于System1DiT的预训练;中层采用合成数据,包括视频生成数据和仿真环境中生成的数据;顶层采用GR-1人形机器人真机数据和OpenX-Embodiment机械臂数据。

(2)控制算法和大模型

传统运动控制方案主要采用Model-Based方法(基于模型的控制方案),从LIMP+ZMP演变至MPC+WBC并进一步向全身动量控制发展。

MPC(模型预测控制)控制过程包括模型预测、优化求解和实时控制,通过测量机器人的状态(如机身位置、速度和角速度),预测出一个时间序列内的机身状态。参考状态与实际测量值被输入优化求解器,结合约束条件,求得未来n步的控制指令。选取第一个控制指令作为期望的末端接触力与力矩,输入到内部多关节系统控制中。MPC优势在于:

1)能够显式考虑复杂动力学;

2)同时平衡稳定性、能效、运动速度和平滑度等多个目标;

3)直接考虑关节限位、摩擦锥约束、足端位置限制等多种限制因素;

4)具备一定的预测能力。但是,MPC局限在于:

1)简化模型问题:通常基于简化模型(如单刚体),无法直接考虑完整的机器人关节动力学;

2)计算复杂度挑战:在全身动力学水平上直接应用MPC会导致优化问题复杂,难以实时求的可行解;

3)结果仍需处理:MPC计算出足端接触力,仍然需要使用雅可比矩阵转移为关节力矩命令;

4)忽视短期控制:关注长期轨迹优化可能忽略短期控制需求,降低对突发情况的即时响应能力。WBC(全身运动控制)代表一组控制器,生成关节扭矩、速度、位置,侧重于协调机器人多自由度的全身运动。WBC核心原理是将控制的目标任务理解为分优先级的多任务控制。适用情形:

1)期望轨迹是基于降阶模型计算的,仅编码机器人全身运动的重要子集,不包含所有关节的信息;

2)轨迹是用全阶模型规划的,但计算量太大,无法实时应用(WBC较MPC更新频率更快);

3)环境不确定性和规划不准确会导致干扰。MPC+WBC:MPC提供最优轨迹,关注长期预测,WBC执行多任务协调,注重短期控制。

强化学习(RL)借助智能体与环境的交互产生的数据来训练和优化策略。其目标是得到一个最佳策略(“状态-动作”映射),在每个状态下选择最优的动作,以最大化长期累积奖励。无模型RL无需显式得使用状态转换概率/函数,更为简单,且在多地形混杂的不规则场景、极限场景中表现更优,泛化度高。但RL面临奖励设计依赖工程师经验、可解释性和行为预测性较差、无法在线调整参数等限制。目前RL多在模拟环境中训练,主要是由于其依赖于大量观察与动作、丰富的奖励函数、学习设计、大量试错,这在真实世界很难满足。此时sim-to-real差距是需要解决的核心问题。

机器人操作基础模型可以分成三类:传统方法、分层式、端到端。分层式方法利用预训练的语言或视觉语言基础模型作为高级任务规划和推理引擎,以理解用户指令、解析场景信息并将复杂任务分解为一系列子目标。这些高级输出(通常是可操作的知识或图像语言标记)随后被传递给低级操作策略(通常是通过模仿学习或强化学习训练的专家策略),以执行物理交互操作。Transformer因其可扩展性而成为此类低级策略的常见选择。

优势:充分利用了基础模型强大的语义和逻辑推理能力,同时结合了低层策略在具体动作执行中的效率,使机器人在多任务处理和跨场景泛化方面表现出色。具备模块化和可解释。

挑战:信息瓶颈以及高层与低层之间语义鸿沟等。如,FigureAIHelix,NVIDIAGR00TN1等。端到端方法将机器人操作数据直接纳入基础模型的训练或微调过程,构建端到端VLA模型。这些模型直接学习从多模态输入(如图像和语言指令)到机器人动作输出的映射。通过对大量机器人交互数据进行预训练或微调,VLA模型可以隐式学习任务规划、场景理解和动作生成,而无需显式的层次结构。

优势:允许模型针对下游部署任务进行整体优化,从而可能提升性能。挑战:通常需要大量机器人数据,并且模型的可解释性相对较弱。例如,谷歌DeepMind的RT2。

VLA难解数据问题之时,研究者对世界模型的关注提升,其是理解现实世界动态(包括其物理和空间属性)的生成式AI模型。使用文本、图像、视频和运动等输入数据来生成视频,通过学习能够理解现实世界环境的物理特性,从而对运动、应力以及感官数据中的空间关系等动态进行表示和预测(英伟达)。世界模型让系统能够超越直接的感官输入,进行深层次的推理和决策,不只根据相关性而真正能理解动作。但其与VLA一个重要不同在于,世界模型只能模拟到机器人采用不同推理策略、执行不同动作后能得到的结果的视频效果,但是这些动作并非真实执行,模型不知道后续执行是否有误。此外,世界模型目前尚难以在共享环境中模拟多个独立智能体之间的复杂交互。

当前,基于学习的方法在运控、导航、机器人操作上重要性提升。基于强化学习的方法在跑步、跳跃和复杂地形适应上已表现较优,并在处理动态障碍物避让上提供了较强灵活性和适应性。步态规划上,近期研究多将基于优化的精确轨迹与基于学习的控制策略相结合,以提升越野性能。操作层面,随着大规模数据收集,基于学习的端到端方法日益重要,尤其是强化学习之于复杂多指灵巧手双手操作。

(三)中游:产品制造是具身智能发展的关键

目前人形机器人厂商呈现百花齐放态势,我们将主要参与者大致归为五类:

1)初创公司:产品迭代速度快。该门类下可再细分,第一种,机器人类企业,基于人形机器人与其他机器人类产品技术同源,在机械结构设计和运控上具备优势。比如傅利叶智能、宇树科技。第二种,创始人或重要高管具有互联网/智驾从业背景,其在模型算法使用上具备一定敏锐度,如海外FigureAI、1XTechnologies,国内的智元机器人等。第三种,其他创业公司,比如优必选,开普勒机器人、乐聚机器人等。

2)汽车厂商:具有技术、场景和供应链优势。技术优势体现在算法和精密制造,场景优势体现在toB工厂实训和数据收集,供应优势体现在人形机器人和电动车零部件存在一定重叠,车厂主动选择熟悉的集成商和零部件供应商更加高效。比如特斯拉、小鹏、广汽集团、赛力斯。

3)消费电子类公司:3C供应链企业具备较强的大规模量产质量&成本管控能力,在组装和代工上具备经验积累,比如蓝思科技、领益智造等。3C品牌厂商则具备较优的toC产品推广能力,在家庭服务场景更有优势,如小米、APPLE等。

4)科研机构/创新中心:具有研发经验和资金支持。比如银河通用机器人、星动纪元等。

5)其他科技/互联网大厂:目前人形机器人成为海内外科技/互联网大厂共识的方向之一,基于较强的技术、资金、人才实力,腾讯早期曾试水推出类人形机器人“小五”,字节等在也在加快布局,是实力强劲的潜在竞争者。

本体之外,科技/互联网大厂目前更多的是采取投资+自研大模型的方式参与人形机器人产业,如阿里&蚂蚁投资宇树、星海图、逐迹动力等;腾讯投资宇树和智元;美团投资宇树、银河通用、星海图等,布局医疗配送、无人零售、低空等领域;京东投资千寻智能、众擎机器人、逐迹动力等,配合自身JoyAI大模型和JoyScaleAI算力平台,服务公司物流、仓储等供应链场景。

未来人形机器人赛道中有望能够脱颖而出的本体厂商,要拥有多领域跨学科人才(如具备前瞻性的领导者,AI及其他算法、硬件、生产制造、供应链等领域人才),可构建长期技术壁垒(如模型架构、数据来源和策略),能够解决真实问题并给客户明确投资回报。机器人赛道上的角逐,将是人才吸引能力+技术实力+产品思维+融资能力的综合体现。

随着量产加速,我们同时建议关注制造能力突出、专业化全维度协助头部本体企业落地的代工企业。当前众多具身智能机器人企业是初创公司,对资源利用效率要求更高,缺乏大规模制造经验,外部代工-内部组装可能是走向规模量产的重要一环。对于代工企业而言,可以扩大规模,摊薄成本,深度参与产业技术与产品迭代。当前丰立智能-星动纪元,蓝思科技/均普智能/领益智造/宁波华翔/博众精工-智元机器人,蓝黛科技-乐聚机器人已达成代工合作,禾川科技和雷赛智能等也属意开展代工业务,我们看好制造能力已被验证、具备优质本体客户资源的代工厂商。

(四)下游:应用场景是具身智能发展的动力

根据2025WRC发布的《人形机器人十大潜力应用场景》,结合2025WAIC和WRC现场展示情况,应用场景相似特点是,劳动密集、重复性强,风险高、结构化/简单半结构化。通过初期投入、后续运营成本、政府政策支持等维度对机器人落地投资回报情况进行衡量,我们归纳了两个筛选易于落地应用场景的角度,第一是技术可实现性,即在容错率高,执行速度/同步性要求不高,可重复纠错,易于收集数据的场景具备率先落地优势;第二是成本效益,即在区别于自动化、能体现物体/任务/环境泛化性,能真正提高效率或降低死伤率的场景具备率先落地优势。我们看好中短期具身智能机器人在工业物流、toB机构养老、特种环境(转炉炼钢,石油化工,电力巡检),以及toC陪伴&玩具机器人场景中的应用,长期走进家庭。

上下游协同发展,推动具身智能产业进步图2
上下游协同发展,推动具身智能产业进步图3 关 于 我 们  上下游协同发展,推动具身智能产业进步图4
思瀚产业研究院
 Chinasihan.com
中国产业研究领导者
添柴鹏城  未来之城  创新之都  励精图治

报告订购定制化联系方式:
 · 联系电话:4008087939    0755-28709360
· 客 服 微 信:g15361035605 
· 客 服 Q Q :454058156
· 邮箱:chinasihan@126.com

·官方网站: Chinasihan.com



声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号