看完1882篇工作后,2026 ICRA上大家都在卷什么?

具身智能之心 2026-06-06 20:00

点击下方卡片,关注“具身智能之心”公众号


这几天,2026 ICRA 正在维也纳举行。

今年共计投稿4947篇,录用1882篇,录取率38%。8000多人参会。

如果去年关键词是“大模型”,今年只有一个主题:让机器人真正理解接触之后的世界

一条主线:从“看见”到“接触”

以前难在“识别”。现在难在“接触之后”。

物体会滑、力会变、环境会动。视觉告诉你“那是什么”,但“怎么抓不滑”、“怎么用力不坏”,视觉不够。

所以今年全场高频词:Manipulation + Tactile

  • 灵巧操作、双手协作、移动抓取
  • 接触检测、握力控制、滑移检测

越来越多人意识到:Vision + Tactile + Action 必须一体化。

看完1882篇工作后,2026 ICRA上大家都在卷什么?图1

这条主线意味着什么?

对研究者来说,门槛变了。以前会调VLA就能发论文。现在你需要:

  • 懂触觉/力控
  • 懂仿真到真机的闭环
  • 懂VLA+World Models融合

这不是单点技术,是系统能力

而这个系统能力的要求,则对研究平权提出了很大挑战。

1)有的实验室,VLA还没搞明白,就开始做触觉融合。

2)符号识别还没完全吃透,物理AI(那些结合摩擦力、重力、纹理信息)的任务呼之欲来。

面对这种“高门槛”与“资源错配”的矛盾,很多正在研究的同学往往手足无措;

而破局的关键就在于:打破信息和研究高度上的落差,如果有系统级带练就更好了。

而这,也是具身智能之心今年要重点做的,研究需要平权。

这是我们的第三期

这个事情,其实很早就在布局,也得到了很多积极的反馈。前两期学员从双非到C9。结课后,有人完成了第一篇CoRL投稿,也有人将项目写进简历后进入了具身智能公司。

这些结果指向一个朴素的结论:科研产出的差异,并不是强者越来越强,弱者毫无机会。方法和步骤同样重要,甚至更可控。

实验设计怎么回应质疑、limitations怎么写、创新点怎么定位——这些东西不是“悟性”,是可拆解、可学习的流程。当你完整走过一遍从复现到初稿的流程,就会发现:不同背景的人,只要能踩对步骤,都能产出论文。

科研是可以平权的。有时候,方法和路径比起点更重要。

我们采用了1v6的方式

每期 6 人,13讲,从复现、找创新点到写出初稿。方向覆盖VLA、VLA+RL、WAM。

规模限制的原因很简单:科研辅导不是信息单向输出。一旦人数超过这个范围,反馈深度会迅速下降——老师无法跟踪每个人的代码进度,也无法针对各自的卡点给出具体建议。

小班的形式,本质上是承认一个事实:从复现到写作的过程中,多数问题不是共性的,而是高度个体化的。6人左右,才有可能做到每个阶段都有人盯、每个卡点都有回应。

看完1882篇工作后,2026 ICRA上大家都在卷什么?图2
更多内容,欢迎添加小助理咨询

unsetunset课程大纲unsetunset

第 1 讲 具身智能的挑战与 Foundation Model 范式

VLA 定义与范式;

领域主流方法介绍;

机器人领域期刊和会议介绍

第 2 讲 VLA 模型基础与典型框架

VLM 编码;

动作表示;

时序建模;

端到端 vs 分模块;

主流 benchmark 与评价指标

第 3 讲 强化学习基础与机器人特点

Value/Advantage 介绍;

PPO/SAC 介绍;

奖励函数;

稳定性问题;

多 seed 评测

第 4 讲 RL 在 VLA 中的融合方式

RL fine-tuning;

reward shaping;

critic 引入;

RL 对稳定性与泛化的影响

第 5 讲 奖励设计与 Reward Model

奖励函数设计原则;

稀疏 vs 稠密奖励;

reward model 训练与应用

第 6 讲 端到端与分层 VLA 系统

端到端:Diffusion/Flow matching-based VLA;

Token-based Action;

优缺点分析分层:高层 VLM/VLA 负责子目标/抽象动作;

低层policy 负责连续控制;

层间接口设计

第 7 讲 学术会议视角下的技术版图

RL 在 VLA 中的角色;

关键挑战;

如何定义研究问题

第 8 讲 VLA+RL 仿真平台搭建

IsaacLab / MuJoCo / ManiSkill;

任务定义;

观测与动作空间设计;

复现与工程规范

第 9 讲 世界模型导论:从预测到行动

世界模型基本概念;

预测驱动的决策范式;

从感知预测到行动规划的过渡

第 10 讲 Video Action Model:视频预测驱动决策

视频生成模型在机器人决策中的应用;

VAM 架构与训练方式;

视频预测作为隐式 world model

第 11 讲 World Action Model:统一感知-预测-行动

WAM 统一建模框架;

感知、预测与行动的联合建模;

与端到端 VLA的关系与差异

第 12 讲 长时任务、记忆机制与泛化能力

长时任务挑战;

时序信用分配;

显式/隐式记忆机制;

history / state aggregation; 语义 token 与动作抽象;

数据多样性;

跨任务泛化分析

第 13 讲 选题、论文写作与投稿指导

当前瓶颈与可创新点分类;

实验设计与评价指标;

问题定义与方法对齐;

Abstract / Introduction / Experiments 写作

unsetunset辅导老师介绍unsetunset

Mason 老师,欧洲 Top 名校 PhD,美国德克萨斯大学奥斯汀分校访问学者,曾工作于德国人工智能研究中心 DFKI、ABB 机器人的 AI 机器人研究部门。研究包 括:深度强化学习,机器人学习,模仿学习,迁移学习。在 RAL,ICRA,IROS 等顶刊顶会发表多篇论文。担任 RAL,ICRA,IROS,TMECH 等期刊和会议审稿人。

unsetunset硬件与基础要求unsetunset

  1. 具身智能领域研究方向,推理要求 4090 以上算力,训练算力自备(建议 4 卡 4090,可以租借);
  2. 一定的 pytorch 和 python 基础,能够自己修改代码

unsetunset预期收获unsetunset

完成本课程后,你将能够:

  • 全面掌握机器人基础模型(VLA、WAM、VAM)的理论基础与技术演进路径
  • 熟练使用各类仿真环境进行实验,具备从零搭建训练环境的能力
  • 理解RL在基础模型中的融合方式,掌握奖励设计、策略优化等关键技能
  • 具备独立发现研究问题、设计实验方案的能力
  • 掌握学术论文撰写与投稿的完整流程
  • 形成自己的研究idea并完成初步实验验证
  • 建立具身智能领域的学术视野与研究思维
  • 产出一篇完整的论文初稿

unsetunset课程细节unsetunset

还有最后1个名额,招满开课!报名前需联系小助理和老师约meeting筛选简历,通过后,进入课题。

时间安排:13 周集中辅导+8 周课后答疑。

看完1882篇工作后,2026 ICRA上大家都在卷什么?图3
添加小助理咨询

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IC
more
刚刚,Claude自曝80%代码AI写的,Anthropic呼吁停止研究AI
雷曼光电如何押注Micro LED巨幕时代
连续两年进入 ICRA 最佳论文视野,RoboScience 机器科学的“具身大脑”押对了
AI自进化过快,Anthropic呼吁全球中止研发
突发!OpenAI芯片元老加入Anthropic
明星 AI 公司 Anthropic 悄悄要上市了|机智流周报
Anthropic联创亲口承认:AI正自我迭代!
“中国版Anthropic”、6000亿市值?还有两道坎
ICRA 2026|强脑科技携Revo3灵巧手亮相,与全球学术界共建灵巧操作未来
「这可能是人类写的最后一篇论文」Stanford、Michigan、CMU 等 37 位学者联手:把论文从 PDF 改写成 AI 能直接执行的研究包
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号