王耀南院士:大模型,如何成为机器人的“终极操控中枢”?

科技导报 2025-12-18 16:30
王耀南院士:大模型,如何成为机器人的“终极操控中枢”?图1
原文发表于《科技导报》2025年第20人工智能大模型推动具身智能无人系统发展

在“十五五”规划锚定的未来产业蓝图中,具身智能作为人工智能走向物理实践的关键跨越,正成为驱动新型工业化、应对社会挑战的新质生产力。

 

《科技导报》2025年第20期刊发了我国机器人技术与智能控制专家、中国工程院院士王耀南的文章《人工智能大模型推动具身智能无人系统发展》。本文认为,人工智能大模型以其强大的学习与泛化能力,为具身智能无人系统注入核心动力,通过处理复杂多模态数据,显著提升系统的感知、决策与控制智能化水平,赋能产业升级与科技自立自强。

王耀南院士:大模型,如何成为机器人的“终极操控中枢”?图2

王耀南(左三)指导学生

 

王耀南,现任湖南大学机器人视觉感知与控制技术国家工程研究中心主任,机器人技术与智能控制专家、中国图象图形学学会理事长、中国工程院院士,主要从事智能机器人感知与控制技术及工程应用的研究。

 

王耀南院士:大模型,如何成为机器人的“终极操控中枢”?图3

 

人工智能大模型推动具身智能无人系统发展

王耀南

随着人工智能技术的快速发展,具身智能无人系统逐渐成为研究热点。人工智能大模型技术的发展为具身智能无人系统带来了新的机遇。具身智能强调智能体通过与环境的交互来实现智能行为,而无人系统则摆脱了人类直接操控的限制,能够自主完成任务。人工智能大模型的出现,为具身智能无人系统的发展注入了强大动力。大模型具有强大的学习能力和泛化能力,能够处理复杂的多模态数据,为无人系统的感知、决策和控制提供更高效、更智能的解决方案。在当今科技竞争日益激烈的背景下,研究人工智能大模型驱动的具身智能无人系统,对于提升国家的科技实力和推动产业升级具有重要意义。

具身智能无人系统的载体形态丰富,涵盖无人机、无人地面车辆(UGV)、无人水面/水下航行器(USV/UUV)以及各种类型移动机器人。

这些应用场景充分验证了无人系统的价值潜力,而具身智能技术的融入,将进一步突破其功能边界,实现更复杂场景下的自主任务执行。

具身智能,其核心思想是智能体需要通过身体与环境进行交互来获取知识和实现智能行为。早期研究主要集中于结构化环境中的专用控制算法与运动规划方法,实现诸如定点移动、物体抓取等基础性任务。随着深度学习、强化学习等人工智能分支的发展,具身智能的应用范围逐步从工业机器人拓展到智能驾驶车辆、无人机等更为复杂的无人系统,实现了从“结构化环境中的规则性任务”向“半结构化环境中的多目标任务”的重大跨越。近年来,以ChatGPTDeepSeekLLaMA等为代表的大模型技术爆发式发展,推动具身智能进入一个全新时代。基于深度强化学习与环境交互自学习的智能体,能够通过与环境的持续互动自主提炼任务策略,并借助视觉、语言、力触等多模态感知系统,实现对动态环境的深度理解与快速自适应,从而显著提升在未知、非结构化环境中的系统鲁棒性与任务完成率。

通用基础大模型是具身智能无人系统的“底层引擎”。通用基础大模型是AI大模型体系的核心基座,其技术特征在于通过大规模无标注数据预训练,构建跨领域的语言理解、逻辑推理与知识存储能力。该类模型以Transformer架构为核心,通过千亿至万亿级参数规模实现“知识图谱+语言理解”的双重能力,典型代表包括ChatGPT系列、LLaMA系列、DeepSeek及文心一言等。在技术范式上,通用基础大模型采用“预训练-微调”模式:预训练阶段通过海量文本数据学习人类语言规律与世界知识,形成通用语义理解与逻辑推理框架;微调阶段则输入少量任务相关标注数据,快速适配文本生成、智能问答、代码编写等特定任务需求。在具身智能无人系统中,通用基础大模型承担“大脑中枢”职能:

例如,无人车决策系统可基于大模型的逻辑推理能力,解析交通法规文本、路况描述信息,生成符合人类认知的驾驶决策逻辑;服务机器人可通过大模型理解复杂自然语言指令,完成任务拆解与执行指令转化。

多模态大模型是具身智能无人系统复杂环境跨模态信息交互的“融合桥梁”,其能够统一处理文本、图像、音频、视频以及各类传感器(如激光雷达、毫米波雷达、惯性测量单元(IMU)等)产生的异构数据,打破不同模态之间的语义隔阂。在模型结构上,多模态大模型通常引入模态对齐模块,例如跨注意力机制、特征映射网络等,将不同模态的数据嵌入到统一的语义表征空间中,从而实现真正的跨模态理解与生成能力,例如图像描述生成、语音指令理解、基于多传感器融合的环境状态判断等。这一能力对无人系统在真实世界中的环境感知与语义建模具有至关重要的作用。

具身智能大模型是智能无人系统交互控制的“专用大脑”。具身智能大模型是专为“智能体与环境交互”设计的技术,其核心特征是将“环境感知-动作决策-反馈学习”融入模型架构,实现“感知即决策、决策即控制”的端到端能力。与前2类大模型相比,具身智能大模型在训练数据上增加了“交互数据”(如机器人的运动轨迹数据、无人车的驾驶行为数据、人类与环境的交互数据),在架构上增加了“动作预测模块”和“反馈优化模块”,能够直接输出控制信号(如关节角度、电机转速、行驶速度),而非仅生成文本或图像。具身智能大模型的关键技术突破在于“实时交互与动态适应”:

例如,人形机器人在行走时遇到障碍物,模型可在50 ms内完成“感知障碍物(视觉+触觉)—调整步态(动作决策)—输出关节控制参数(控制)”的全流程,且通过实时反馈(如脚底压力传感器数据)不断优化动作,避免摔倒,通过具身大模型,可在凹凸不平的地面行走、上下楼梯、搬运10 kg重物,动作流畅度接近人类。

近年来,人工智能大模型不断发展,在具身智能无人系统中也发挥着越来越多的作用

尽管大模型为具身智能无人系统带来了革命性进展,但是进一步发展仍面临诸多技术挑战

展望未来,人工智能大模型仍将持续驱动具身智能无人系统迈向更高水平。

文章来王耀南. 人工智能大模型推动具身智能无人系统发展[J]. 科技导报, 2025, 43(20): 1-2.

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人 大模型
more
1.5万亿美元,SpaceX或成最强IPO;人形机器人暴涨700%;智谱开源AutoGLM,「豆包手机」人人可造 | 极客早知道
新品 | 宇树首发人形机器人 App Store;realme 真我 Narzo 90 系列手机规格曝光
打造机器人的「WinTel」,地平线的胃口越来越大了
人形机器人轻量化:路径、材料与核心部件的深度剖析
机器人香港开启极限挑战,丢掉遥控器,硬刚全自主!
Q4融资超过亿元的具身公司.......
张亚勤:机器人是未来最大赛道,十年左右,机器人比人的数目还要多
全球首条!具身智能机器人在宁德时代电池产线实现规模化落地
对话晓悟智能赵锐:当移动机器人进化成“智能终端”,红海论调还成立吗?
智元机器人第5000台通用具身机器人灵犀X2下线;极智嘉在欧洲交付单仓近千台机器人项目 | 市场观察
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号