每当有人咨询具身入门的路线时，我一定会推荐这套完整的教程

点击下方卡片，关注“具身智能之心”公众号

编辑丨具身智能之心

本文只做学术分享，如有侵权，联系删文

>>点击进入→具身智能之心技术交流群

更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球(戳我)，这里包含所有你想要的。

具身大小脑构成了主要内容

具身智能领域主要围绕2个重要的部分展开：大脑和小脑，这是机器人最重要的模块，如果类比于人类，大脑负责思考感知（主导语义理解和任务规划），小脑负责执行（高精度的运动执行）。

在细分领域又有仿真、vla、diffusion policy、vln、世界模型、强化等多个子模块。vla和世界模型目前正在自驾和具身领域同时发力，代表2个不同的技术路线。

vla目前主要研究热点为端到端和分层2种方案，又分别基于大模型和diffusion技术作为拓展。现vla+rl方案，也被越来越做学者作为探索的方向。

diffusion policy作为action模块，负责学习具体的动作和执行。主要有状态扩散、动作空间扩散、三维空间扩散等多个方向。

仿真现在比较好的点是sim2real和real2sim2real，如何解决真机泛化差的问题是很多公司正在突破的。抛开效果不说，已经有多家具身公司认可这种方案，而不是一味采集真机数据。

vln当下更关注于目标导航，和很多移动操作（manipulation）相关联，map-free的方案也是非常利于任务泛化的。

再来看下这几个技术的演进

具身智能技术的发展经历了从低层感知到高层任务理解与泛化的持续演进，其核心目标是不断提升机器人在真实世界中自主感知、理解和行动的能力。

第一阶段：技术研究主要聚焦于抓取位姿检测（Grasp Pose Detection），通过点云或图像预测合适的末端执行器姿态，实现静态物体的抓取。然而这一阶段的策略多为单步决策，缺乏对任务上下文和动作序列的建模，难以胜任复杂操作任务。

第二阶段：技术研究逐步迈入行为克隆（Behavior Cloning）阶段，机器人可以借助专家演示数据学习从感知到控制的端到端映射，具备了模仿人类完成复杂任务的能力。但这一阶段也暴露出了泛化能力弱、误差累积、在多目标场景中表现不佳等问题。

第三阶段：2023年兴起的Diffusion Policy方法引入了序列建模的范式创新。它通过扩散模型生成整个动作轨迹，从而更好地捕捉任务执行中的时序结构与多样性，大幅提升了策略的稳定性与泛化能力。进一步地，2024年时随着大模型技术的发展，具身智能进入了Vision-Language-Action（VLA）模型阶段。这一阶段强调多模态协同与任务泛化能力的提升，代表性工作如 OpenVLA、RT-2、PI0 等。这些VLA模型融合了视觉感知、语言理解与动作生成模块，使机器人能够“听得懂人类指令、看得懂真实世界、做得出合理动作”。相比于前两阶段的方法，VLA不仅能完成复杂任务，还支持零样本或小样本的快速泛化，体现出从“感知+控制”向“感知+推理+行动”的范式跃迁。

第四阶段：进入 2025 年以来，业界与学界开始进一步探索 VLA 模型与强化学习（RL）、世界模型（World Model）、触觉感知（Tactile Sensing）等模块的融合，试图弥补当前VLA模型“只能理解不能反馈”、“只能关注当下不能看见未来”“只能看不能触”的局限。

VLA +强化学习的结合提升了机器人在长时任务中的试错能力与自我改进能力；VLA+世界模型引入环境动态预测，使机器人具备“想象未来”的能力，有助于更高效地进行规划与决策；而VLA+触觉信息的加入，则拓展了从“看”到“看+触多模态融合”的具身感知边界，推动机器人在复杂、非结构化环境下实现更精细、更安全的操作。

从抓取位姿检测到行为克隆、再到扩散策略与VLA模型的演进，标志着具身智能技术正从“低层感知->中层策略->高层理解”的链条上不断补齐能力短板，逐步迈向通用任务和开放环境的智能体时代。而这些技术领域的发展造就了各类产品的落地，特别是人形机器人、机械臂、四足机器人。服务于工业、家居、餐饮、医疗康复等各个领域，相关的产品和融资络绎不绝，岗位更是呈现爆发式增长。这也导致了许多同学不断转入具身智能领域，开始相关方向的研究。

然而，整个具身大脑+小脑算法较多，想要成体系的学习非常困难，许多同学甚至搞不清楚有哪些知识体系。一直原地踏步，久久不能入门。更有甚者，无法区分具身大脑与小脑的概念。为此，我们联合业内知名具身智能算法专家，为大家梳理了一套完成的具身大脑+小脑算法体系，并配有大量的实践。助力学习与落地，无论是初学者还是需要进阶的同学都能受益！

国庆课程八折优惠，捡漏的机会！