点击下方卡片,关注“具身智能之心”公众号
作者丨Xiaofeng Han等
编辑丨具身智能之心
本文只做学术分享,如有侵权,联系删文
更多干货,欢迎加入国内首个具身智能全栈学习社区:具身智能之心知识星球(戳我),这里包含所有你想要的。

想象这样一个场景:你让机器人在陌生的仓库里完成任务,“找到蓝色货箱,把它搬到出口处”。这意味着机器人不仅要识别货箱的位置,还要在光照复杂、物体遮挡、路径拥挤的环境中,实时规划路线并执行动作。过去的机器人往往依赖单一传感器(例如摄像头),一旦遇到光照变化或遮挡,就容易“失明”;而即便多加几个传感器,也常常因为信息割裂、缺乏统一融合而难以真正理解环境,更别说听懂人类的自然语言指令。
如今,多模态融合(Multimodal Fusion) 和 视觉语言模型(Vision-Language Models, VLMs) 正在改变这一切。多模态融合能整合 RGB 图像、深度信息、LiDAR 点云、语言、甚至触觉与位置信息,从而让机器人拥有更全面的“感知力”;而大型预训练 VLMs 则让机器人具备了跨模态对齐与语义理解能力,能够把“看见的”与“听到的”结合起来,转化为任务执行的逻辑。换句话说,它们正在让机器人从“单一感官的机械执行者”,进化为“具备理解力的智能伙伴”。
这篇综述《Multimodal Fusion and Vision-Language Models for Robot Vision》,由自动化所三维可视计算团队撰写,已被国际顶刊 Information Fusion正式接收。文章全面梳理了 VLM 与多模态融合在机器人视觉中的应用:从语义场景理解、三维目标检测,到 SLAM、具身导航和操作控制。同时,作者比较了传统方法与新兴大模型方法的优缺点,分析了相关数据集与基准测试,并提出未来的发展方向——包括跨模态自监督学习、轻量化融合架构、Transformer 驱动的统一范式,以及真实环境中的高效部署策略。
如果你想理解机器人如何突破感知与理解的局限,如何在复杂环境中实现更自主、更高效的交互,这篇综述无疑是一份值得深入研读的“领域地图”。
作者: Xiaofeng Han, Shunpeng Chen, Zenghuang Fu, Zhe Feng,Lue Fan,Dong An,Changwei Wang,Li Guo, Weiliang Meng, Xiaopeng Zhang,Rongtao Xu,Shibiao Xu
单位:中科院自动化所三维可视计算团队,北京邮电大学,山东省科学院
论文标题:Multimodal Fusion and Vision-Language Models: A Survey for Robot Vision
论文链接:https://arxiv.org/pdf/2504.02477v2
项目地址:https://github.com/Xiaofeng-Han-Res/MF-RV
作者知乎:https://www.zhihu.com/people/fengzhe_love

贡献
系统整合了传统多模态方法与新兴 VLM,从架构、功能、应用三个维度展开比较,揭示它们的互补性和融合潜力; 不同于以往只关注语义分割或目标检测的综述,我们还扩展到多模态 SLAM、机器人操作、具身导航等新兴任务,展示其在复杂推理和长时任务中的应用潜力; 总结了多模态系统相比单模态的优势,比如感知更鲁棒、语义更丰富、跨模态对齐更自然、推理层级更高,突出了它在动态、不确定或部分可观测环境中的实际价值; 深入分析当前主流的机器人多模态数据集,涵盖模态组合、任务覆盖、适用场景与局限,为未来基准构建和模型评测提供参考; 识别关键挑战,包括跨模态对齐技术、高效训练策略和实时性能优化,并据此提出面向未来的研究方向。
多模态融合在机器人视觉任务中的应用
语义场景理解:让机器人“看懂世界”
语义场景理解是视觉系统里的“硬核任务”,涉及物体识别、语义分割和关系建模。但如果只靠 RGB 图像,在复杂环境下就容易“翻车”:光照变化、物体遮挡、多目标重叠……哪一个都可能让模型瞬间迷路。于是,多模态融合就成了“救命稻草”,通过引入深度、LiDAR、语言等额外信息,大幅提升了场景理解的准确性和鲁棒性。
目前主流的融合策略主要分三类:
早期融合:在输入层直接拼接多模态数据,结构简单,但非常怕噪声,稍不小心就“乱套”; 中期融合:在特征层进行交互,常用注意力机制、GNN等方法,既保持模态独立,又能聪明地建模跨模态关系; 后期融合:各模态先“各干各的”,再整合决策,优点是扩展性强,想加新模态时不用“推倒重来”。
随着深度网络的发展,融合方式也在升级,从“显式拼接”走向了“隐式协作”。现代多模态模型往往在统一架构中同时完成特征提取、模态交互和任务预测,不仅减少了阶段设计的麻烦,还让不同模态之间的信息交换更加顺畅。
当前主流实现路径主要有三大类:
编码器-解码器架构(如 DeepLabv3+、HRNet),适合处理复杂多模态任务; 基于注意力的 Transformer(如 MRFTrans、DefFusion),善于建模长程跨模态依赖; 图神经网络(GNN)方法(如 MISSIONGNN、VQA-GNN),通过图结构捕捉模态之间更细腻的语义关系。
总的来看,这些方法正在一起努力,目标只有一个:让机器人在真实环境中看得更清、想得更深、少走弯路。毕竟,谁也不想让机器人一出门就迷路,对吧?

3D 目标检测

在自动驾驶系统中,3D 目标检测几乎可以算是最关键的感知任务之一。它的目标很直接:让车辆准确识别并定位周围的行人、车辆和障碍物,从而为后续的路径规划和决策提供可靠支持。常见的传感器包括相机、LiDAR、雷达和超声波。单一传感器各有短板:相机能捕捉丰富的纹理和颜色,但缺乏深度信息;LiDAR 提供精准的空间几何结构,却“看不懂”语义和纹理。把它们结合起来?优势互补,效果立竿见影,系统对环境的理解能力会显著提升。
三个核心问题:什么时候、融合什么、怎么融合?
在多模态融合的设计中,有三个绕不开的问题:When to fuse(何时融合)、What to fuse(融合什么)、How to fuse(如何融合)。
什么时候融合: 早期融合:在原始数据层面就直接拼接,例如把图像与点云直接“叠”在一起; 中期融合:先分别提取模态特征,再在特征空间中交互; 后期融合:各模态各算各的,最后再在决策层汇总结果。 融合什么: 相机数据可以是特征图、注意力图、伪点云等;LiDAR 数据可以是原始点云、体素化表示,或者是鸟瞰视图(BEV)。不同选择会直接影响融合的效果和计算开销。 怎么融合: 从最初的非注意力型方法(简单拼接、加权平均)到如今基于注意力的跨模态交互,方法论已经发生质变。Transformer 和跨模态注意力的引入,让模型学会了“有选择性”地关注不同模态中最有价值的特征,而不是一股脑儿地全收。
相机 vs LiDAR:互补才是正解
相机单模态方法通过 2D 图像去推理 3D 结构,优势是语义丰富、视觉直观,但一旦遇到遮挡、极端光照或雨雪天气,表现会明显下滑。LiDAR 单模态方法则完全反过来:三维几何结构拿捏得死死的,但在远距离或低反射物体上点云会很稀疏,而且缺少语义区分能力。
所以这几年,LiDAR 和相机的多模态融合逐渐成了主流方向。说白了,就是让模型既能“看到”世界的样子,又能“摸清”世界的形状。
方法演进:从简单拼接到智能交互
从最早的 MV3D、AVOD 到近年来的 TransFusion、BEVFusion 和 GAFusion,这条技术演进路线很清晰:
早期方法依赖直接拼接或统计操作,简单粗暴但效果有限; 随着深度学习的发展,逐渐演化出更复杂的点级、体素级、区域级融合策略; 直到 Transformer 的引入,多模态交互被彻底“点满”,模型终于学会了在不同模态中“挑肥拣瘦”,适应复杂环境的能力大幅提升。
一些代表性方法:
PointPainting:先对图像做语义分割,再把结果“涂”到点云上,给稀疏点云补上语义信息; TransFusion:用 Transformer 解码器建模跨模态依赖,在点云稀疏的场景下依然能保持高精度检测。
换句话说,这波进化就是从“硬拼”到“会聊”,信息交互越来越聪明。
融合更多模态:雷达和 4D 雷达的加入
除了 LiDAR+相机的组合,研究者还在探索雷达-相机和雷达-LiDAR的融合。雷达的优势在于可以直接测量速度,而且在雨雪雾等恶劣天气中依然表现稳定。比如 CenterFusion 就通过引入雷达信息,显著提升了动态环境下的检测性能。
随着 4D 雷达的发展,模型甚至可以同时获取三维空间位置和目标速度,大幅增强对动态物体的感知能力。与此同时,跨注意力机制和自监督融合方法也在不断被引入,以进一步提升精度和泛化性。

具身导航
具身导航的核心思想,是让机器人像“真的身处环境中一样”去探索、感知和行动,而不是只依赖预定义地图或单一传感器。换句话说,它不仅关注“怎么走”,还关注“为什么走”,强调在真实环境中自主决策与动态适应的能力。
在现有研究中,具身导航主要可以分为三类代表性方法:目标导向导航、指令跟随导航 和 基于对话的导航。这三类方法可以看作是从“感知驱动”到“语言理解”再到“交互感知”的逐步演进。

目标导向导航
这是最直观、最基础的一类方法。机器人接收一个明确的目标,例如“去找到椅子”,然后依赖视觉语义和空间先验知识,完成以下几个关键步骤:
自主感知周围环境 建立空间表示 规划合理路径 执行动作直到到达目标
这一类方法在 Habitat 平台上的 ObjectNav 等任务中得到了广泛验证。研究结果表明,机器人可以在没有先验地图的情况下,基于视觉和语义信息,在未知环境中完成目标检索和导航。这类任务通常考验感知能力与空间推理能力的结合,是具身导航的基础。
指令跟随导航
相比单纯的目标导向,这一类方法进一步引入了自然语言理解。机器人不仅要“看到环境”,还需要“听懂人类说什么”,并将语言信息与视觉感知结合起来。
例如,当机器人接收到“走到厨房左边的桌子”这样的指令时,它需要同时完成以下两件事:
视觉层面:识别出厨房、桌子等语义实体; 语言层面:理解“左边”的空间约束,并结合视觉地图执行。
近年来,研究者提出了不少具有代表性的系统:
InstructNav:通过多源价值映射(multi-source value mapping),实现了跨任务的零样本规划,能在没有特定训练的情况下适应新任务。 NaVid:利用视频驱动的视觉-语言模型,在室内与室外导航任务中均表现出更强的泛化能力。
这一类方法的核心突破在于让机器人不仅“看得见”,还“听得懂”,极大拓展了机器人在复杂环境中的交互和适应能力。
基于对话的导航
在这类方法中,机器人不再是被动执行命令,而是能够主动发问、实时交互,从而显著提升任务的灵活性。
例如,当机器人接到模糊的指令“去那个房间”时,它不会盲目行动,而是可以主动追问:“是指有沙发的房间吗?”在拿到更明确的信息后,机器人会动态调整路径,并在执行过程中不断修正错误。
这种交互式导航范式让机器人在不确定环境中拥有更高的适应性,特别适合长时序、多步骤的复杂任务。它不仅需要多模态融合(视觉、语言、空间),还要求系统具备在线推理与自我校正的能力。
视觉定位
如果说导航是回答“怎么去”,那视觉定位的任务就是先搞清楚“我在哪”。这个问题看似简单,其实在机器人系统里是个大难题。特别是在光照变化、遮挡严重、环境动态频繁的现实场景中,光靠一个传感器——比如相机或者 IMU(惯性单元)——往往会力不从心。
好在近年来深度学习带来的多模态融合思路,实实在在把这个老问题往前推进了一大步。比如 DeepVO 和 D3VO 这类方法,把卷积网络(提特征)和循环网络(建时间关系)结合起来,实现了端到端的自运动估计和深度估计。这些方法在标注丰富的数据集上表现不错,但也暴露出另一个问题:数据哪里来?
于是,自监督学习成了救场英雄。它不靠人工标注,而是通过光度一致性和几何一致性这些物理约束进行学习。换句话说,它让模型“自己悟”,效果还真不差。
更进一步的工作开始尝试将传统几何建模和深度神经网络混合使用,试图解决视觉里程计常见的尺度歧义和累积漂移问题。比如 D3VO 就引入了不确定性估计机制,让系统在面对动态物体或遮挡时不再那么“慌”。
而更激进的路线则直接采用神经隐式表示,比如火出圈的 NeRF,以及带语义扩展的 Semantic-NeRF。这类方法的目标很明确:把整个场景的几何和语义信息压缩进一个神经网络,让机器人哪怕是在完全陌生的环境中也能靠“记忆”来定位,听起来有点像把地图装进了大脑。
同步定位与建图
SLAM(Simultaneous Localization and Mapping)算是机器人视觉中的“老牌任务”了。自 1986 年提出以来,它一直是机器人自主探索的基石:一边在未知环境中“打怪升级”,一边绘制地图,同时还得精确知道自己在哪。简单说,就是让机器人边走边画,还得画得准、走得稳。
传统 SLAM 主要分两大阵营:
基于 LiDAR:测距精准、稳定性高,但缺乏语义,远距离点云还容易稀疏; 基于视觉(V-SLAM):通过相机提取与跟踪特征点,语义丰富,但在低光、无纹理或强遮挡环境下很容易“掉链子”。
说白了,LiDAR“看得准”,相机“看得懂”,但两者各自“看不全”。
为了弥补单一模态的不足,多模态 SLAM 顺势登场。通过融合 LiDAR、相机、IMU、GPS、雷达等多源信息,系统变得更稳、更聪明、更适应环境变化。
一些代表性工作:
V-LOAM:最早把视觉与 LiDAR“绑”在一起,利用几何与纹理的互补性,大幅提升精度。 LIMO:引入 IMU,让系统在动态场景下依然稳定。 LIC-Fusion & LIC-Fusion 2.0:通过紧耦合优化框架深度整合多源数据,在大规模场景中兼顾高精度与实时性。
换句话说,SLAM 终于从“单打独斗”变成了“抱团取暖”。
近年来,SLAM 也迎来了“神经化”浪潮。Transformer 等深度学习技术被引入,用来建模时序关系与跨模态依赖:
UVIO:用 Transformer 主干联合建模视觉和 IMU,大幅提升动态场景下的位姿估计。 RD-VIO:融合雷达信息,在恶劣天气中依然稳如老狗。 ConceptFusion:更“激进”,把视觉、语言、音频等模态融合,迈向了语义级理解。
这意味着 SLAM 系统不只是“知道我在哪”,还开始能理解“我周围有什么”,甚至“我应该怎么走”。
整体来看,SLAM 正在从“几何驱动”向“语义驱动”演进。未来的发展方向很可能是:
多模态轻量化:在保证精度的同时降低计算开销,让 SLAM 跑得起、飞得快。 自监督与大模型结合:减少对昂贵标注数据的依赖,提升泛化能力。 感知与决策一体化:不只是定位和建图,还能进行高层语义理解,辅助路径规划和任务执行。
视觉-语言-动作模型
在机器人操作任务中,多模态特征融合几乎是从“能看见”到“会行动”的关键一环。视觉-语言-动作(VLA)模型正是为此而生:它结合视觉感知、语言理解和动作规划,让机器人在面对复杂任务时,不再只是被动感知,而是能基于多源信息主动决策和执行。
VLA 的核心:模态互补 + 动作生成
VLA 模型的核心思路很直接:
从视觉模态中获取世界状态:物体的位置、形状、姿态和布局; 通过语言模态理解任务语义:解析自然语言指令,将“人话”翻译成“机器人能懂的话”; 将多模态信息融合到统一表示,再一步映射成具体的动作序列。
一些代表性方法:
RT-2:通过大规模预训练把视觉和语言表示对齐,让机器人能直接把自然语言指令翻译成低层控制命令。 RoboMamba:在融合框架中显式引入动作动态建模,提升操作规划的合理性。 3D-VLA:结合三维点云与深度图,让视觉表征更丰富,从而在语言指导下实现更精准、更鲁棒的操作。
一句话总结:视觉让机器人“看得见”,语言让它“听得懂”,而 VLA 则让它“动得准”。
高效化与智能化:让 VLA 更轻、更快、更聪明
VLA 模型的强大性能,常常伴随着高昂的计算代价,因此研究者开始探索轻量化与高效推理:
OpenVLA:引入 LoRA(低秩适配)实现参数高效的模态对齐,训练成本大幅下降。 DeeR-VLA:通过动态提前退出机制,在保证精度的同时显著降低计算开销。 VoxPoser:更“野心勃勃”,它通过语言驱动的可供性推理(affordance inference),在 3D 空间中生成价值图,让机器人在动态环境中可以实时调整策略,做到“见招拆招”。
这种趋势很明显:不仅要让机器人更聪明,还要让它更快、更轻、更能落地。
总体来看,基于 VLA 的多模态融合,让机器人在操作任务中实现了三重跃迁:
感知更强:能同时理解空间布局、物体属性和语义信息; 理解更深:语言与视觉对齐后,机器人能“听懂”复杂任务; 执行更准:融合多模态信息后,动作规划更加合理高效。
视觉 + 触觉:让机器人“摸得准、抓得稳”
在机器人抓取与操作中,视觉负责给出全局信息(物体位置、形态、姿态),而触觉则提供局部反馈(接触力、摩擦、滑动等)。两者结合,让机器人不仅“看得见”,还能“摸得准”,操作的精度与稳定性会大幅提升。
抓取生成:先“看清”,再“摸准”
在抓取生成阶段,视觉帮助确定物体的空间姿态和位置,而触觉则补充表面特性和受力信息,用于选择最优抓取点。
FusionNet-A:将视觉与触觉特征通过三维池化和全局平均池化融合,用于物体识别与抓取规划。 VITO-Transformer:基于 Vision Transformer,把触觉信号引入自注意力机制,实现动态适应的抓取点预测。
一句话总结:视觉负责“发现目标”,触觉负责“挑最稳的下手点”。
抓取规划与执行:触觉让机器人“更稳”
到了抓取规划与执行阶段,触觉反馈的重要性进一步放大:
RotateIt:融合视觉、触觉和本体感知(proprioception),在多轴旋转任务中实现最优力闭合。 Sparsh:提出大规模触觉预训练方法,学习到通用触觉表征,有效提升滑动检测和抓取稳定性。
这里触觉的作用有点像“安全气囊”,实时调整,让机器人不至于“手滑”。
抓取稳定性评估:多模态的真正价值
在抓取稳定性预测中,视觉-触觉融合展现出了巨大优势:
Li 等人:通过时空注意力机制动态分配模态权重,既关注空间关键区域,又跟踪时间变化。 MimicTouch:模仿人类触觉策略,结合自监督学习和强化学习,显著优化抓取稳定性。 Octopi:利用 GelSight 传感器收集高分辨率表面数据,并通过 CLIP 模型对齐视觉与触觉特征,实现更强的策略泛化。 TAVI:结合视觉空间推理与多指触觉反馈,实现翻转等复杂操作任务。
这些方法让机器人从“只会抓”升级为“会思考怎么抓”。
Vision-Language Models 演进

预训练:跨模态理解的起点
在多模态学习中,预训练几乎是整个系统的起点。通过在大规模图像-文本数据上进行联合训练,模型能够学会视觉与语言之间的深层语义关联。这样一来,它不仅能在图文匹配、图像描述、视觉问答等常见任务上表现出色,还能在标注稀缺的情况下依靠已有知识完成迁移,展现出极强的泛化能力。
核心思想其实很直接:把不同模态的数据(图像、文本、语音等)映射到同一个共享表示空间中,让模型理解“这张图片”和“这段文字”在语义上的对应关系。为了实现这一点,研究者通常会为不同模态设计专门的编码器,比如用 CNN 处理视觉、用 Transformer 处理文本,然后通过对比学习或自监督方法对齐它们。
其中最典型的例子是 CLIP:它通过大规模图像-文本对的对比学习,让模型学会在同一向量空间中把相关图像和文本拉近、不相关的推远。这种方式不仅让 CLIP 在零样本任务中“开挂”,还能轻松迁移到下游的多模态任务中,几乎成为跨模态预训练的标配方案。
跨模态对齐与表示学习
要让视觉和语言真正“对话”,光有一个共享空间还不够,跨模态对齐才是关键。这意味着模型必须学会在不同模态之间建立精确对应关系:一张图上的视觉区域要能和一句话里的词语对齐。但问题在于,图像是高维连续信号,文本是离散符号,如何让它们在同一空间高效交互,是跨模态研究的核心挑战。
目前,主流方法大致可以分为三类:
对比学习通过拉近正样本(同一图像和它的描述),推远负样本(不同图片与无关描述),模型能够学会“哪些是相关的,哪些不是”。代表方法有 CLIP、ALIGN,它们用大规模图文对训练出了极具泛化性的语义空间。 自监督学习借助掩码预测、图像修复或跨模态一致性等任务,让模型在没有人工标注的情况下,自动学到模态间的互补信息。例如 BLIP-2 通过图像-文本双向掩码任务,显著提升了跨模态理解能力。 跨模态生成让模型从一种模态生成另一种模态,比如根据文字生成图像(如 DALL·E、Imagen),或者根据图像生成描述和问答。这类方法不仅提高了模型的跨模态理解能力,也催生了许多创造性应用。
这三类方法相互补充,让模型不仅能“看懂”图文关系,还能推理、联想、生成。换句话说,模型从“懂得对应”进化到“学会表达”,为视觉语言的深度融合打下了基础。
视觉-语言模型的演进:从“小助手”到“全能选手”
自 2022 年以来,视觉-语言模型(VLM)的发展速度可以说是“卷”出新高度。最早的 Flamingo、PaLM-E 主要聚焦少样本学习和跨模态推理,让模型学会“看图说话”这件事。随后,MiniGPT-4 和 LLaVA 更进一步,不仅在视觉与语言的深度对齐上做了加强,还通过指令微调让模型更懂人话,泛化能力直接起飞。而到了 Gemini、Llama-3.2 这一代,事情就更热闹了:多模态范围扩展到图像、文本、音频甚至跨语言,俨然一副“想做通用智能”的架势。
核心创新点:它们变强的秘密
大规模图文预训练先“喂饱”模型海量图文对,让它先学会“看懂”和“说对”,为跨模态推理打下坚实基础。 指令微调用自然语言告诉模型“我要什么”,结果发现它真能学会举一反三,甚至偶尔还能“猜”到你没说出口的需求。 结构优化新一代模型疯狂上“黑科技”,比如 MoE(专家混合)、稀疏注意力,一边变聪明,一边还想省算力,简直又要当学霸又要省电。

结论
这篇论文系统性地探讨了视觉语言模型(Vision-Language Models, VLMs)在机器人视觉中的“江湖地位”,算是一次全景式的盘点。我们聚焦于语义理解、三维目标检测、具身导航和机器人操作等核心任务,梳理了各种多模态融合方法是如何把视觉、语言、深度信息和点云“拉到一张桌子上”聊合作的。论文细致总结了几条主流技术路线,包括编码器-解码器框架、跨模态注意力机制、图神经网络等,并分析了它们在不同任务上的优缺点。与此同时,我们也拿传统方法和大模型驱动的新方法做了横向对比,看看“老江湖”和“新贵”各自的招式。除此之外,论文还系统整理了常用的数据集和评测基准,并不留情面地指出现有研究在方法、数据和任务维度上有点“不均衡”,堪称业内“真相局”。
在全面分析的基础上,总结了三个关键发现: 第一,跨模态对齐策略几乎决定了机器人感知能力的上限,但现实是——不同模态之间常常“不说同一种语言”,语义粒度差异和特征对不上号仍是硬伤; 第二,在算力有限的机器人平台上部署大规模 VLM,可不是“模型一丢就完事”,还得靠轻量化与多阶段自适应机制“精打细算”,否则 GPU 会先罢工; 第三,任务导向与在线自适应的融合方法逐渐走红,让机器人能在动态环境中实时“见招拆招”,像玩游戏开了“自动战斗”一样灵活。
当然,虽然 VLM 在标准化任务上表现得像“学霸”,可一旦放到真实机器人平台上,问题立刻暴露:传感器异质性导致模态缺失、稀疏或低质输入引发语义偏差,还有延迟、鲁棒性、可解释性这些硬性要求,样样都头疼。对此,作者提出未来研究可以重点关注三条路线: 一是引入结构化空间建模和记忆机制,让机器人拥有更靠谱的“空间感”; 二是提升系统的可解释性与伦理适应性,毕竟没人想养一个“黑箱型小叛逆”; 三是借鉴脑科学的建模理念,发展具备长期学习能力的认知型 VLM 架构,让机器人不再“短记性”,而是越用越聪明。
总之,我们的愿景很明确:未来的机器人视觉系统不仅要更自主、更高效,还得更懂我们。说白了,就是想把机器人培养成“既有大脑,又懂社交”的全能型选手。