点击下方卡片,关注“具身智能之心”公众号
这几天,2026 ICRA 正在维也纳举行。
今年共计投稿4947篇,录用1882篇,录取率38%。8000多人参会。
如果去年关键词是“大模型”,今年只有一个主题:让机器人真正理解接触之后的世界。
一条主线:从“看见”到“接触”
以前难在“识别”。现在难在“接触之后”。
物体会滑、力会变、环境会动。视觉告诉你“那是什么”,但“怎么抓不滑”、“怎么用力不坏”,视觉不够。
所以今年全场高频词:Manipulation + Tactile。
灵巧操作、双手协作、移动抓取 接触检测、握力控制、滑移检测
越来越多人意识到:Vision + Tactile + Action 必须一体化。

这条主线意味着什么?
对研究者来说,门槛变了。以前会调VLA就能发论文。现在你需要:
懂触觉/力控 懂仿真到真机的闭环 懂VLA+World Models融合
这不是单点技术,是系统能力。
而这个系统能力的要求,则对研究平权提出了很大挑战。
1)有的实验室,VLA还没搞明白,就开始做触觉融合。
2)符号识别还没完全吃透,物理AI(那些结合摩擦力、重力、纹理信息)的任务呼之欲来。
面对这种“高门槛”与“资源错配”的矛盾,很多正在研究的同学往往手足无措;
而破局的关键就在于:打破信息和研究高度上的落差,如果有系统级带练就更好了。
而这,也是具身智能之心今年要重点做的,研究需要平权。
这是我们的第三期
这个事情,其实很早就在布局,也得到了很多积极的反馈。前两期学员从双非到C9。结课后,有人完成了第一篇CoRL投稿,也有人将项目写进简历后进入了具身智能公司。
这些结果指向一个朴素的结论:科研产出的差异,并不是强者越来越强,弱者毫无机会。方法和步骤同样重要,甚至更可控。
实验设计怎么回应质疑、limitations怎么写、创新点怎么定位——这些东西不是“悟性”,是可拆解、可学习的流程。当你完整走过一遍从复现到初稿的流程,就会发现:不同背景的人,只要能踩对步骤,都能产出论文。
科研是可以平权的。有时候,方法和路径比起点更重要。
我们采用了1v6的方式
每期 6 人,13讲,从复现、找创新点到写出初稿。方向覆盖VLA、VLA+RL、WAM。
规模限制的原因很简单:科研辅导不是信息单向输出。一旦人数超过这个范围,反馈深度会迅速下降——老师无法跟踪每个人的代码进度,也无法针对各自的卡点给出具体建议。
小班的形式,本质上是承认一个事实:从复现到写作的过程中,多数问题不是共性的,而是高度个体化的。6人左右,才有可能做到每个阶段都有人盯、每个卡点都有回应。

课程大纲
第 1 讲 具身智能的挑战与 Foundation Model 范式
VLA 定义与范式;
领域主流方法介绍;
机器人领域期刊和会议介绍
第 2 讲 VLA 模型基础与典型框架
VLM 编码;
动作表示;
时序建模;
端到端 vs 分模块;
主流 benchmark 与评价指标
第 3 讲 强化学习基础与机器人特点
Value/Advantage 介绍;
PPO/SAC 介绍;
奖励函数;
稳定性问题;
多 seed 评测
第 4 讲 RL 在 VLA 中的融合方式
RL fine-tuning;
reward shaping;
critic 引入;
RL 对稳定性与泛化的影响
第 5 讲 奖励设计与 Reward Model
奖励函数设计原则;
稀疏 vs 稠密奖励;
reward model 训练与应用
第 6 讲 端到端与分层 VLA 系统
端到端:Diffusion/Flow matching-based VLA;
Token-based Action;
优缺点分析分层:高层 VLM/VLA 负责子目标/抽象动作;
低层policy 负责连续控制;
层间接口设计
第 7 讲 学术会议视角下的技术版图
RL 在 VLA 中的角色;
关键挑战;
如何定义研究问题
第 8 讲 VLA+RL 仿真平台搭建
IsaacLab / MuJoCo / ManiSkill;
任务定义;
观测与动作空间设计;
复现与工程规范
第 9 讲 世界模型导论:从预测到行动
世界模型基本概念;
预测驱动的决策范式;
从感知预测到行动规划的过渡
第 10 讲 Video Action Model:视频预测驱动决策
视频生成模型在机器人决策中的应用;
VAM 架构与训练方式;
视频预测作为隐式 world model
第 11 讲 World Action Model:统一感知-预测-行动
WAM 统一建模框架;
感知、预测与行动的联合建模;
与端到端 VLA的关系与差异
第 12 讲 长时任务、记忆机制与泛化能力
长时任务挑战;
时序信用分配;
显式/隐式记忆机制;
history / state aggregation; 语义 token 与动作抽象;
数据多样性;
跨任务泛化分析
第 13 讲 选题、论文写作与投稿指导
当前瓶颈与可创新点分类;
实验设计与评价指标;
问题定义与方法对齐;
Abstract / Introduction / Experiments 写作
辅导老师介绍
Mason 老师,欧洲 Top 名校 PhD,美国德克萨斯大学奥斯汀分校访问学者,曾工作于德国人工智能研究中心 DFKI、ABB 机器人的 AI 机器人研究部门。研究包 括:深度强化学习,机器人学习,模仿学习,迁移学习。在 RAL,ICRA,IROS 等顶刊顶会发表多篇论文。担任 RAL,ICRA,IROS,TMECH 等期刊和会议审稿人。
硬件与基础要求
具身智能领域研究方向,推理要求 4090 以上算力,训练算力自备(建议 4 卡 4090,可以租借); 一定的 pytorch 和 python 基础,能够自己修改代码
预期收获
完成本课程后,你将能够:
全面掌握机器人基础模型(VLA、WAM、VAM)的理论基础与技术演进路径 熟练使用各类仿真环境进行实验,具备从零搭建训练环境的能力 理解RL在基础模型中的融合方式,掌握奖励设计、策略优化等关键技能 具备独立发现研究问题、设计实验方案的能力 掌握学术论文撰写与投稿的完整流程 形成自己的研究idea并完成初步实验验证 建立具身智能领域的学术视野与研究思维 产出一篇完整的论文初稿
课程细节
还有最后1个名额,招满开课!报名前需联系小助理和老师约meeting筛选简历,通过后,进入课题。
时间安排:13 周集中辅导+8 周课后答疑。
