清华大学孙富春:世界模型如何重塑机器人认知?

具身智能大讲堂 2025-08-06 12:00
资讯配图

欢迎关注具身智能大讲堂

资讯配图

2025是人形机器人商业化元年,围绕具身智能与人形机器人的商用落地,成为了产业从业者探讨的话题,但现阶段人形机器人的智能化水平依然是其限制规模化落地的主要问题。近日,清华大学计算机科学与技术系教授孙富春围绕人类行为学习机制,探讨了人形机器人在具身智能领域的技术瓶颈与突破方向。


1► 人形机器人是人工智能的终极验证载体


孙富春提到,人类用百万年进化实现了双足行走的生物力学优化,机器人却仅用三十年就完成了从爬行到直立行走的跨越。


资讯配图


这种差异的核心在于,人类双足行走包含三大复杂特性:高负重比,即双脚以极小接触面积支撑全身重量;高度形态自适应,也就是脊椎与肢体结构能支撑无限动作可能;强智能依赖,需要大脑与小脑协同控制平衡。这也解释了为何婴儿要 1.5-2 年才能学会独立行走,这一过程不只是肌肉发育,更是神经控制系统的逐步成熟。


资讯配图


孙富春认为,人形机器人是检验人工智能真实性的最佳平台。“若认为人工智能技术成熟,必须在人形机器人上实现类人的物理交互能力。”从日本早期的阿西莫机器人到如今的Figure03,技术已从单纯的运动控制演进为 “感知 - 决策 - 执行” 的闭环。以Figure03 的分拣动作为例,其核心是 “本体运动系统” 与 “思考系统” 的协同,前者负责物理执行,后者处理环境认知,这种架构标志着智能体概念已从虚拟软件延伸为 “物理实体+类脑认知”的综合体。


2► 行为学习的三阶演进:从模仿到自主的认知跃迁


基于对人类运动学习机制的研究,孙富春提出机器人行为习得的三阶段模型,每个阶段对应不同的智能水平与成功率:


资讯配图


认知阶段:相当于人类的模仿学习,通过教练示范或数据输入建立基础动作库。该阶段机器人仅能复刻表层动作,无法理解物理交互的隐性规则,成功率约 20%-30%。例如模仿人类抓取杯子时,可能因未能感知杯壁光滑度而导致滑落。这与法国早期 Nao机器人的局限相似,虽集成视觉、听觉传感器,却缺乏对物理世界的深层理解。


资讯配图


联想阶段:将具体动作抽象为 “任务 - 技能 - 动作”知识图谱,通过力反馈持续优化。孙富春团队的研究显示,该阶段需构建触觉与视觉的关联模型,例如通过指尖压力变化判断物体重量,成功率可提升至50%-70%。这类似于运动员将教练指导转化为肌肉记忆的过程,机器人开始形成对动作效果的预判能力。


自主阶段:通过大量场景训练形成“长时程增强效应”,实现90%-100%的稳定成功率。这一阶段的核心是神经突触级的记忆强化,如同人类反复练习后“闭着眼也能完成动作”。孙富春以蝶泳动作为例说明:人类不仅需复刻肢体轨迹,更要通过水动力学模型预判划水角度对推进力的影响,这种能力依赖对物理规律的内在建模。


3► 世界模型是破解物理交互的核心密码


孙富春划分了当前具身智能研究的两大方向:空间智能与世界模型。空间智能以计算机视觉为主导,通过大模型处理视觉数据实现操作,依赖专业标注的样本数据,如通过图像识别定位物体位置,但无法预判物体运动规律。而世界模型则融合动力学、运动学与多模态感知,构建对物理世界的内在表征,核心是通过反事实分析区分因果关系与相关关系。


资讯配图


“鸡叫与日出是相关关系,而非因果关系 —— 这种判断能力对机器人至关重要。”他指出,世界模型的关键功能是预测 “行动后的下一帧状态”,例如推杯子时能预判其滑动轨迹与倾倒风险。在工业场景中,这种能力使机器人能根据电路板的柔性特征自动调整螺丝刀扭矩,避免元件损坏。


资讯配图


孙富春进一步强调,人类行为学习的独特之处在于将物理交互转化为可复用的技能模块。例如 “插孔”任务可拆解为 “抓取-对准-插入”三个子技能,每个子技能又包含更精细的动作单元。机器人若能建立类似的技能分解与组合机制,将大幅提升任务泛化能力。


4► 从实验室到产业应用 人形机器人的落地逻辑


孙富春认为,人形机器人的终极价值在于适配人类设计的生产生活场景。“所有工厂车间、家庭环境都是为人类身体结构设计的,只有人形机器人能无缝融入这些场景。” 他以制造业为例说明:当前生产线的工具尺寸、操作空间均以人类肢体为基准,双足行走与灵巧手的机器人能直接复用现有设备,无需重构生产体系。


资讯配图


在技术落地路径上,孙富春主张借鉴人类运动解析的研究方法:通过视觉、触觉、听觉多模态传感,解译人类动作中的肌肉调用、关节活动等数据,构建 “动作 - 效果” 映射模型。这种模型既能指导机器人模仿人类行为,也能反哺工业设计,例如根据机器人的抓取能力优化产品包装结构。


孙富春认为,第一代人形机器人仍处于 “无智能” 阶段,未来突破需要神经科学、运动力学与人工智能的深度融合。当机器人能像人类一样理解物理规律、积累技能经验时,具身智能才能真正实现从实验室到产业的跨越,成为改变生产生活方式的核心力量。



  END 




资讯配图

科技热点


1.仅重18克的被动伸缩扑翼机器人

2.全球首例 SoftFoot Pro仿生脚原型

3.腾讯Robotics X实验室全新分层框架曝光

4.受螳螂视觉启发的立体人工复眼技术


大咖观点


1.具身智能与人形机器人 产业大佬们怎么说?

2.人形机器人是继PC、手机之后人类的第三台计算机

3.傅利叶智能顾捷分享人形机器人探索历程

4.上交大高峰:人形与多足机器人的设计与控制分析


热点评论


1.A++++轮 融资超10亿 估值超70亿的具身智能公司

2.地球上最先进的人形机器人来了

3.英伟达大会发布人形机器人开发工具

4.宇树Unitree B2对战波士顿动力Spot


新品速递


1.GTC 2024 黄仁勋发布王炸技术

2.傅利叶GR-1通用人形机器人表演架子鼓视频

3.逐际动力全尺寸人形机器人CL-1

4.地表最强Figure 02发布!算力提升3倍!


资讯配图

微信号|具身智能大讲堂

专注AI具身智能产业前沿话题

加入社群

欢迎加入【具身智能大讲堂】读者讨论群,共同探讨具身智能机器人相关领域话题,共享前沿科技及产业动态。


添加微信号(19016903753)具身智能大讲堂客服 备注“具身茶谈”可进入交流群。


兼职作者&投稿

机器人大讲堂正在招募【兼职内容创作者】,如果您对撰写机器人【科技类】【产业类】文章感兴趣,可添加微信:具身智能大讲堂客服(19016903753,手机与微信号相同)。我们对职业、所在地等没有要求,欢迎朋友们的加入!



声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
模仿学习再迎新突破!清华大学×地平线:第一人称视角“破局”,机器人操作成功率提高 40.5%
清华大学孙富春:世界模型如何重塑机器人认知?
对话投资人王晟:朱啸虎退早了,宇树和智元上市后,可能会把机器人市场的热情再往上拉
这家机器人公司为何成为全球AI巨头的硬件"标配"?
具身基础 - 机器人控制器
基于ml的个性化可穿戴机器人控制可改善受损的手臂功能
从能展示到能顶岗,人形机器人的「上班时刻」到了吗?
2025世界机器人大会主论坛议程公布!思想盛宴,智慧交锋
阿里巴巴、京东先后领投,这家创企发布“性价比最高”全尺寸人形机器人!
南京市机器人产业推介会诚邀参加、名额有限
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号