看完1882篇工作后，2026 ICRA上大家都在卷什么？

点击下方卡片，关注“具身智能之心”公众号

这几天，2026 ICRA 正在维也纳举行。

今年共计投稿4947篇，录用1882篇，录取率38%。8000多人参会。

如果去年关键词是“大模型”，今年只有一个主题：让机器人真正理解接触之后的世界。

一条主线：从“看见”到“接触”

以前难在“识别”。现在难在“接触之后”。

物体会滑、力会变、环境会动。视觉告诉你“那是什么”，但“怎么抓不滑”、“怎么用力不坏”，视觉不够。

所以今年全场高频词：Manipulation + Tactile。

灵巧操作、双手协作、移动抓取
接触检测、握力控制、滑移检测

越来越多人意识到：Vision + Tactile + Action 必须一体化。

这条主线意味着什么？

对研究者来说，门槛变了。以前会调VLA就能发论文。现在你需要：

懂触觉/力控
懂仿真到真机的闭环
懂VLA+World Models融合

这不是单点技术，是系统能力。

而这个系统能力的要求，则对研究平权提出了很大挑战。

1）有的实验室，VLA还没搞明白，就开始做触觉融合。

2）符号识别还没完全吃透，物理AI（那些结合摩擦力、重力、纹理信息）的任务呼之欲来。

面对这种“高门槛”与“资源错配”的矛盾，很多正在研究的同学往往手足无措；

而破局的关键就在于：打破信息和研究高度上的落差，如果有系统级带练就更好了。

而这，也是具身智能之心今年要重点做的，研究需要平权。

这是我们的第三期

这个事情，其实很早就在布局，也得到了很多积极的反馈。前两期学员从双非到C9。结课后，有人完成了第一篇CoRL投稿，也有人将项目写进简历后进入了具身智能公司。

这些结果指向一个朴素的结论：科研产出的差异，并不是强者越来越强，弱者毫无机会。方法和步骤同样重要，甚至更可控。

实验设计怎么回应质疑、limitations怎么写、创新点怎么定位——这些东西不是“悟性”，是可拆解、可学习的流程。当你完整走过一遍从复现到初稿的流程，就会发现：不同背景的人，只要能踩对步骤，都能产出论文。

科研是可以平权的。有时候，方法和路径比起点更重要。

我们采用了1v6的方式

每期 6 人，13讲，从复现、找创新点到写出初稿。方向覆盖VLA、VLA+RL、WAM。

规模限制的原因很简单：科研辅导不是信息单向输出。一旦人数超过这个范围，反馈深度会迅速下降——老师无法跟踪每个人的代码进度，也无法针对各自的卡点给出具体建议。

小班的形式，本质上是承认一个事实：从复现到写作的过程中，多数问题不是共性的，而是高度个体化的。6人左右，才有可能做到每个阶段都有人盯、每个卡点都有回应。

看完1882篇工作后，2026 ICRA上大家都在卷什么？图2 — 更多内容，欢迎添加小助理咨询

unsetunset课程大纲unsetunset

第 1 讲具身智能的挑战与 Foundation Model 范式

VLA 定义与范式；

领域主流方法介绍；

机器人领域期刊和会议介绍

第 2 讲 VLA 模型基础与典型框架

VLM 编码；

动作表示；

时序建模；

端到端 vs 分模块；

主流 benchmark 与评价指标

第 3 讲强化学习基础与机器人特点

Value/Advantage 介绍；

PPO/SAC 介绍；

奖励函数；

稳定性问题；

多 seed 评测

第 4 讲 RL 在 VLA 中的融合方式

RL fine-tuning；

reward shaping；

critic 引入；

RL 对稳定性与泛化的影响

第 5 讲奖励设计与 Reward Model

奖励函数设计原则；

稀疏 vs 稠密奖励；

reward model 训练与应用

第 6 讲端到端与分层 VLA 系统

端到端：Diffusion/Flow matching-based VLA；

Token-based Action；

优缺点分析分层：高层 VLM/VLA 负责子目标/抽象动作；

低层policy 负责连续控制；

层间接口设计

第 7 讲学术会议视角下的技术版图

RL 在 VLA 中的角色；

关键挑战；

如何定义研究问题

第 8 讲 VLA+RL 仿真平台搭建

IsaacLab / MuJoCo / ManiSkill；

任务定义；

观测与动作空间设计；

复现与工程规范

第 9 讲世界模型导论：从预测到行动

世界模型基本概念；

预测驱动的决策范式；

从感知预测到行动规划的过渡

第 10 讲 Video Action Model：视频预测驱动决策

视频生成模型在机器人决策中的应用；

VAM 架构与训练方式；

视频预测作为隐式 world model

第 11 讲 World Action Model：统一感知-预测-行动

WAM 统一建模框架；

感知、预测与行动的联合建模；

与端到端 VLA的关系与差异

第 12 讲长时任务、记忆机制与泛化能力

长时任务挑战；

时序信用分配；

显式/隐式记忆机制；

history / state aggregation；语义 token 与动作抽象；

数据多样性；

跨任务泛化分析

第 13 讲选题、论文写作与投稿指导

当前瓶颈与可创新点分类；

实验设计与评价指标；

问题定义与方法对齐；

Abstract / Introduction / Experiments 写作

unsetunset辅导老师介绍unsetunset

Mason 老师，欧洲 Top 名校 PhD，美国德克萨斯大学奥斯汀分校访问学者，曾工作于德国人工智能研究中心 DFKI、ABB 机器人的 AI 机器人研究部门。研究包括：深度强化学习，机器人学习，模仿学习，迁移学习。在 RAL，ICRA，IROS 等顶刊顶会发表多篇论文。担任 RAL，ICRA，IROS，TMECH 等期刊和会议审稿人。