算力是人形机器人大脑,大模型开启机器人新时代

思瀚产业研究院 2025-08-28 12:00

一、大模型开启机器人新时代

传统的AI机器人感知系统基于部署在受控环境中的深度学习方法实现,缺乏分布偏移和泛化能力,不利于AI机器人在开放式复杂环境的应用推广。大模型的训练基于互联网海量数据使得大模型拥有卓越的泛化能力,并拓展了迁移学习(Transfer Learning)和模型扩展(Scaling)的概念。通过适配特定应用,AI大模型可以为多类型下游任务提供通用框架,让机器人既能理解环境,又能动态、智能执行各类任务,这样机器人可以更自主、更灵活、更高效。

二、物理智能是AI大模型架构发展的关键方向

英伟达在CES 2025重磅发布Cosmos世界基础模型平台。据英伟达官网介绍,物理AI体系包含以Omniverse、Cosmos、Isaac Sim等关键组成部分。其中Cosmos平台利用了超过2000万小时的视频训练数据,旨在“教会AI理解物理世界”。黄仁勋在CES大会上表示,物理AI将彻底改变价值50万亿美元的制造业和物流业,从汽车、卡车到工厂、仓库,所有移动的事物都将实现机器人化,并由AI驱动。

三、人形机器人是具身智能的最佳形态之一

人形机器人的任务执行模式与自动驾驶汽车类似,基于感知、决策、运动控制三大模块。人形机器人需要通过传感器感知环境以及识别指令,然后需要进行任务拆解、任务实施规划、指令下达,最后通过驱动伺服电机进行本体运动。当下,人形机器人使用AI模型在广泛的环境中感知、感应、规划和自主执行复杂任务。经过严格的AI训练后,优化的模型和软件工作流程被部署在机器人的机载计算系统上。搭载AI大模型的具身智能技术是人形机器人产业最新的产物。

四、 算力是具身智能实现之载体

在2025年8月8日开幕的2025世界机器人大会上,2025具身智能机器人十大发展趋势发布,这十大趋势中提到了“物理实践、物理模拟器与世界模型协同驱动的具身感认知”、“从控制角度来看,可以融合模型预测,强化学习和生命科学的具身智能控制”等。感知、决策、执行是具身智能机器人系统核心,本轮具身智能机器人快速发展离不开AI大模型的兴起,我们认为,算力作为大模型发展的底座,将成为具身智能机器人发展的核心关键支撑点。

地瓜机器人推出的面向“机器人+”时代的软硬件产品全家桶

资讯配图

五、具身智能的两种主流架构

在具身大模型的路径上,目前两种主流方式为端到端的具身模型和分层决策模型。

分层决策是一种将复杂任务分解成多个层级处理的方法。在这种架构中,每一层都有其独特的责任和功能,从而提高系统的灵活性和实时响应能力。该架构的优点是分层架构实现难度相对简单,可解释性和灵活性;缺点是增加系统的复杂性,不同层次间融合和一致性是主要难点。

端到端模式是指直接从多模态感知输入生成输出动作的系统。优点是减少误差传递,具身大模型观察到了能力涌现能力;缺点是该模式需要海量数据,全程调用大模型,资源消耗巨大,动作缓慢。

六、分层决策模型是大部分初创公司首选

问世即爆火的 Figure 02 采用三层级方案:顶层集成了 OpenAI 的大模型,负责视觉推理和语言理解(推测为GPT-4V);中间层是神经网络策略(NNP),负责快速、灵巧的操作,将视觉信息直接转换为动作指令,并以高达200hz的频率输出这些指令;底层是全身控制器,负责提供稳定的基础控制,在接收 NNP 的动作指令后,能以1khz 的频率输出各关节的扭矩指令。

出于对成本和技术可实现性的考量,分层决策模型是国内大多数具身智能初创公司的选择。除了简单划分为「大脑」和「小脑」外,不同的团队也根据自己的理解设计出各自的解决方案。

7、 端到端需要海量的数据和算力来驱动

端到端架构将「大脑」和「小脑」合为一体,通过单一的神经网络,直接将任务目标转化为控制信号,实现从输入到输出的无缝衔接。特斯拉的 Optimus 机器人与谷歌的 RT-2 项目便是使用端到端模型的典型代表。

2025年2月20日,Figure发布通用人形机器人控制的视觉-语言-动作(VLA)端到端具身模型Helix。实现了从视觉输入和自然语言指令到机器人动作的直接映射,克服了传统方法中需要大量任务特定训练的限制。其高效训练、强大泛化能力和多机器人协作功能,使其在人形机器人领域具有显著优势和广阔的应用前景。

八、机器人数据集是机器人技术发展的核心驱动力之一

与主要依赖文本和图像数据的大语言模型和视觉语言模型不同,训练机器人所需的视觉-语言-行为(VLA,Vision-Language-Action)模型,需要的是机器人在真实物理世界中进行交互和执行任务的数据。这类数据的采集不仅成本高昂、效率低下,而且难以规模化,这成为了训练强大、通用机器人模型的主要障碍。

根据全球顶级对冲基金 Coatue 2024年发布的题为《The Path to General-Purpose Robots》的报告显示,机器人是一个非常新的领域,严重缺乏训练数据的积累。对比不同模态下的最大数据集,文本模态约15T tokens,图片模态有6B图文配对数据,视频模态有2.6B视听特征数据。然而机器人模态只有240万个数据片段,相比其他模态而言,数据积累远远不够。

九、机器人训练数据的四种采集方式

目前,逐步形成机器人训练数据采集的四种方式:1、远程操作(Teleoperation),由实验人员操作机械手柄,远程控制机器人做出相同动作,以此来积累数据;

2、AR,在一项名为《Explainable Human-Robot Training and Cooperation with Augmented Reality》的研究中,研究人员通过AR(增强现实)技术让人机交互过程具备更强的可解释性,从而进行数据积累;

3、仿真,通过海量算力进行模拟运算,计算得出海量机器人训练数据集,仿真可能是目前最有可能做到规模化数据生成的路径,背后需要巨大的算力支持,目前Nvidia的JimFan团队采取的就是这条技术路径;

4、视频学习,通过多模态大模型,直接让机器人通过视频学习人类动作,从而积累训练数据。

目前,主流的机器人训练数据收集方法是通过遥控操作,特斯拉等公司通过遥控操作提供了大量的训练数据。

十、 当下最前沿的VLA架构

视觉-语言-动作 (vision-language-action, VLA) 模型是一类处理多模态输入的模型,旨在结合视觉、语言和动作信息,主要用于解决具身智能中的指令跟随任务,其涉及对物理实体的控制及与环境的互动,尤其在机器人领域表现突出,机器人在执行语言驱动的任务时,需要理解指令、感知环境并生成适当的动作,这使得VLA的多模态能力变得至关重要,相比于早期的深度强化学习方法,基于VLA的策略在复杂环境中展现出更高的多样性、灵活性和泛化能力,适用于工厂等受控环境以及日常生活中的任务。

十一、Intel、NVIDIA是机器人大脑算力主力供应商

在基础算力模组,英特尔的CPU是主要配置选项;在高算力模组,英伟达的GPU是主要配置选项,其中,NVIDIA Jetson Orin是主流选项。

十二、 英特尔推出大小脑融合方案

在2025年英特尔具身智能解决方案推介会上,英特尔正式发布其具身智能大小脑融合方案。该方案基于英特尔® 酷睿™Ultra处理器的强大算力,以及全新的具身智能软件开发套件和AI加速框架打造。本次英特尔发布的具身智能方案以大小脑融合为亮点,能够使感知、交互、任务规划和运动控制在统一的系统中实现高效整合。而作为其中的算力中枢,英特尔® 酷睿™ Ultra处理器通过CPU 、集成的英特尔锐炫™ GPU 与 NPU 协同运行,以高性能异构算力和高精度实时性能,支持具身智能的多样化负载稳定运行,同时也大幅提升具身智能系统的整体效率和响应能力。

英特尔亦推出具身智能软件开发套件,通过包括OpenVINO™ 工具套件、英特尔® oneAPI 工具包、Intel®Extension for PyTorch-LLM(IPEX)、英特尔® 工业边缘控制平台(ECI)、基于开源机器人操作系统的库、中间件和示例应用程序,使代码实现一次开发多平台部署,缩短评估和开发时间,加快客户应用程序的部署以及算法和应用的运行。

十三、英伟达打造技术闭环和底层开发生态体系

英伟达首席执行官黄仁勋曾多次强调“AI的下一个浪潮将是具身智能”,从2018年开始,公司便前瞻性布局具身智能领域,致力于打造一个完整的技术闭环与底层开发生态体系。2018年6月,英伟达推出NVIDIA Isaac机器人开发平台,该平台包含硬件(Jetson Xavier计算平台)和一系列软件工具(包括Isaac SDK、Isaac IMX和Isaac Sim),初步构建机器人开发、训练与验证的基础设施。

2022年3月,英伟达在 GTC 大会上正式推出了 IsaacNova Orin参考平台。2024年3月,英伟达发布了专为人形机器人打造的计算平台——Jetson Thor,支持多模态AI模型并行计算(如视觉、语音、运动规划)。u 2025年8月12日,英伟达宣布推出全新的NVIDIA Omniverse库和NVIDIA Cosmos世界基础模型(WFM),加速机器人解决方案的开发和部署。

十四、瑞芯微RK3588等面向小脑控制赋能机器人行业

瑞芯微的RK3588采用八核64位ARM架构 ,4颗Cortex–A76 高性能内核(主频达2.4GHz)与4颗Cortex–A55 能效内核(主频2.0GHz)组合,多任务处理和复杂计算能力出色。内置6TOPS 算力的NPU,支持多种数据类型与主流深度学习框架,能高效处理图像识别、语音交互等AI任务。

瑞芯微开发者大会机器人展区

资讯配图

瑞芯微开发者大会上展示的合作的人形机器人

资讯配图

资料来源:瑞芯微官网、四方维,华金证券研究所,思瀚产业研究院

在今年的瑞芯微开发者大会上,特色展区之一的机器人展区展出的机器人种类丰富程度为历届之最,基于RK3588、RK3576、RK3568、RK3562、RK3566、RV1126等方案,包括清洁类的扫地机器人、割草机器人,服务类的迎宾/送餐机器人、中医健康服务机器人、物流仓储机器人、机械臂,陪伴类的下棋机器人、桌面机器人等,更首次重磅展出采用瑞芯微芯片作为小脑中枢的具身机器人和机器狗。搭载RK3588S的人形机器人,支持超大关节运动角度空间,内置23~43个关节电机,拥有模仿及强化学习驱动,具备力控灵巧手,操控性能极佳。

更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。

资讯配图
资讯配图 关 于 我 们  资讯配图
思瀚产业研究院
 Chinasihan.com
中国产业研究领导者
添柴鹏城  未来之城  创新之都  励精图治

报告订购定制化联系方式:
 · 联系电话:4008087939    0755-28709360
· 客 服 微 信:g15361035605 
· 客 服 Q Q :454058156
· 邮箱:chinasihan@126.com

·官方网站: Chinasihan.com



声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
京东工业携手天创电子,共拓千亿机器人市场
英伟达2.5万元机器人“大脑”发售,FCloud教你用云端算力加速开发
工艺为基 开眼强脑——卡诺普具身智能焊接机器人实践之路
普智未来机器人:200台具身智能机器人将下线
2025~2028年全球人形机器人芯片市场规模预估
【AI加油站】RPA 流程自动化系列四:PromptRPA——面向智能手机的自然语言驱动机器人流程自动化系统综述(附PDF下载)
【AI加油站】机器人设计系列五:《工业机器人应用与维护职业认知》——基于“任务驱动”的中职人才培养全景教材解析(附下载)
斯坦福大学提出RTR框架,让机械臂助力人形机器人真机训练
前美团、字节、有道高管创业,想做「AI伴学机器人」丨智能涌现独家
2025年腔镜手术机器人产业链的发展现状及市场规模
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号