点击下方卡片,关注“具身智能之心”公众号
今天,看到了英伟达发布了Cosmos3,为physical ai打造的多模态世界模型。

同时,在UC 伯克利的榜单上也看到了身影,在spirit v1.6之后,目前rank 2。
第三名也是英伟达的Dreamzero,前三个,一个是VLA,另外两个都是基于WM的方案。

top1,好像总是在VLA和WM的身影中交替。
极致的工程优化、更合适的学习方式、还有理解物理世界的演变。
该上的好像都上了!
然而,许多同学特别是学术圈的朋友不禁会问,现在的结构和优化方式是否已经收敛?未来还有哪些坑可以重点发力?
关于这个问题,之前mason老师已经在Foundation Model方向的科研辅导课程内分享过。
包括VLA和WAM的动机,彼此的优化方式,强化是怎么介入的?长程任务的解决思路等。
不讲泛泛综述,关注复现、创新点、论文创作等。内容覆盖VLA、VLA+RL、WAM多个方向。
成果物为一篇完整初稿,项目经验可以直接写简历。没有老师带,想入门具身的同学,欢迎来聊~

这门课程的目标不是“再讲一遍论文”,而是:
一套跑通全流程的代码与工程经验 从idea到初稿的论文写作全流程 少踩坑,把“别人半年踩的雷”压缩到数周
课程的目的是辅导机器人基础大模型方向的同学快速展开科研,形成论文~
课程大纲
第 1 讲 具身智能的挑战与 Foundation Model 范式
VLA 定义与范式;
领域主流方法介绍;
机器人领域期刊和会议介绍
第 2 讲 VLA 模型基础与典型框架
VLM 编码;
动作表示;
时序建模;
端到端 vs 分模块;
主流 benchmark 与评价指标
第 3 讲 强化学习基础与机器人特点
Value/Advantage 介绍;
PPO/SAC 介绍;
奖励函数;
稳定性问题;
多 seed 评测
第 4 讲 RL 在 VLA 中的融合方式
RL fine-tuning;
reward shaping;
critic 引入;
RL 对稳定性与泛化的影响
第 5 讲 奖励设计与 Reward Model
奖励函数设计原则;
稀疏 vs 稠密奖励;
reward model 训练与应用
第 6 讲 端到端与分层 VLA 系统
端到端:Diffusion/Flow matching-based VLA;
Token-based Action;
优缺点分析分层:高层 VLM/VLA 负责子目标/抽象动作;
低层policy 负责连续控制;
层间接口设计
第 7 讲 学术会议视角下的技术版图
RL 在 VLA 中的角色;
关键挑战;
如何定义研究问题
第 8 讲 VLA+RL 仿真平台搭建
IsaacLab / MuJoCo / ManiSkill;
任务定义;
观测与动作空间设计;
复现与工程规范
第 9 讲 世界模型导论:从预测到行动
世界模型基本概念;
预测驱动的决策范式;
从感知预测到行动规划的过渡
第 10 讲 Video Action Model:视频预测驱动决策
视频生成模型在机器人决策中的应用;
VAM 架构与训练方式;
视频预测作为隐式 world model
第 11 讲 World Action Model:统一感知-预测-行动
WAM 统一建模框架;
感知、预测与行动的联合建模;
与端到端 VLA的关系与差异
第 12 讲 长时任务、记忆机制与泛化能力
长时任务挑战;
时序信用分配;
显式/隐式记忆机制;
history / state aggregation; 语义 token 与动作抽象;
数据多样性;
跨任务泛化分析
第 13 讲 选题、论文写作与投稿指导
当前瓶颈与可创新点分类;
实验设计与评价指标;
问题定义与方法对齐;
Abstract / Introduction / Experiments 写作
辅导老师介绍
Mason 老师,欧洲 Top 名校 PhD,美国德克萨斯大学奥斯汀分校访问学者,曾工作于德国人工智能研究中心 DFKI、ABB 机器人的 AI 机器人研究部门。研究包 括:深度强化学习,机器人学习,模仿学习,迁移学习。在 RAL,ICRA,IROS 等顶刊顶会发表多篇论文。担任 RAL,ICRA,IROS,TMECH 等期刊和会议审稿人。
硬件与基础要求
具身智能领域研究方向,推理要求 4090 以上算力,训练算力自备(建议 4 卡 4090,可以租借); 一定的 pytorch 和 python 基础,能够自己修改代码
预期收获
完成本课程后,你将能够:
全面掌握机器人基础模型(VLA、WAM、VAM)的理论基础与技术演进路径 熟练使用各类仿真环境进行实验,具备从零搭建训练环境的能力 理解RL在基础模型中的融合方式,掌握奖励设计、策略优化等关键技能 具备独立发现研究问题、设计实验方案的能力 掌握学术论文撰写与投稿的完整流程 形成自己的研究idea并完成初步实验验证 建立具身智能领域的学术视野与研究思维 产出一篇完整的论文初稿
课程细节
招满后正式开课,最后一个名额了!
为保证质量,报名前需联系小助理和老师约meeting筛选简历,通过后,进入课题。
时间安排:13 周集中辅导+8 周课后答疑。

