点击下方卡片,关注“具身智能之心”公众号

过去一年,人形机器人行业的进展,大多沿着两条线展开。
一条线是让机器人更会「走」。强化学习驱动的全身运控,让双足机器人走得更稳、跑得更快,也能完成跳跃、避障、抗扰动这类过去很难稳定复现的动作。另一条线是让机器人更会「拿」。VLA、灵巧手、遥操作数据不断往前推,机器人开始能听懂指令,完成抓取、摆放、分拣这些桌面级操作任务。
这两条线各自都很热,也各自都有明显进展。但真实世界里的很多任务,恰恰不是「先走过去,再停下来操作」这么简单——撕开一个茶包,身体要前倾、手臂要伸展,同时控制撕扯的张力;点香需要在移动、对齐、垂直插入和持续施力之间保持身体稳定。这些任务看起来是「手活」,本质上却是全身问题。
过去主流方案更像是把问题拆开:先训练一个稳定的移动策略,再训练一个操作策略,最后用系统工程把两者拼起来。这个思路在工厂流水线这类结构化场景里可以成立,但一旦进入真实非结构化场景,移动和操作之间那道缝就会暴露出来——机器人站得远一点,手臂就够不到;身体倾斜一点,末端施力方向就变了;脚底受力变化一点,手上刚建立的接触稳定性就可能被破坏。
近日,一家名为Current Robotics的具身智能公司发布了全身灵巧操作模型Curr-0。这家公司成立时间不长,此前一直比较低调,专注于机器人数据基础设施与具身智能全栈训练系统的研发。
而Curr-0这次最值得关注的地方在于:它没有继续停留在「移动」或「操作」的单点展示上,而是直接对准了那个更难、也更接近真实使用的问题——移动和灵巧操作,能不能放进同一个策略里同时解决。

01.
真正难的,不是手,
而是全身和手怎么一起动
人类做一个简单动作,比如弯腰从地上捡起一团纸,看起来是手在完成任务,但身体其实在同时解决一串问题:脚要调整支撑,膝盖和腰部要改变角度,躯干要配合前倾,手指还要根据物体形状实时调整抓取方式。这不是「身体动作 + 手部动作」的简单叠加,而是一个连续的闭环。
人形机器人更是如此。站姿决定了手能不能够到目标,躯干姿态决定了手臂的可达范围和施力方式,脚和地面的接触状态决定了全身平衡,而手部与物体接触后的力反馈,又会影响身体接下来的运动。这也是为什么很多机器人演示看起来可以抓取、可以移动,但一到需要「边走边做」的任务,就容易变得笨拙——原因不是单个模块不够强,而是模块之间没有真正共享同一个物理状态。
Current Robotics把这类问题称为Loco-Dexterous Manipulation,全身灵巧操作。这个概念的关键,不是给「移动 + 操作」换一个更高级的名字,而是明确了一件事:在真实世界里,移动和操作不是两个阶段,而是同一个动作系统的两面。
02.
Curr-0的选择:用Single Policy把移动和操作放进同一个闭环
Curr-0给出的答案,是Single Policy。它不是先训练一个移动模型,再训练一个操作模型,最后做系统集成,而是从一开始就把全身移动、姿态协调和手部精细交互放进同一个策略里训练。
在Curr-0的系统里,上层负责理解任务语义,把语言指令和视觉观测转化成可执行的任务表征;中层负责协调全身运动和姿态稳定;下层负责手部和物体之间的精细接触。但这不是传统意义上的流水线——三层在同一个闭环策略里协同运行:机器人移动时,身体姿态和手部动作同时调整;手部接触变化时,全身状态也同步响应。
Curr-0运行在70+自由度的人形机器人本体上,单一模型,共享权重,全程自主执行。
在公开演示中,它完成了撕茶包、点香、文件盖章、清理桌面垃圾、抱着玩具穿过门口蹲下放进篮子等任务——这些任务被放出来,并不是因为它们看起来最炫,而是因为每一个都很难被简单拆成「走」和「做」两个阶段:撕茶包时手指需要控制细微张力,身体前倾和手臂姿态会直接影响撕扯路径;抱着玩具穿过门口再蹲下放进篮子,则把移动、避障、负载保持和放置动作全部连在了一起。
03.
全身灵巧操作的数据从哪里来
模型路线确定之后,真正卡住很多团队的是数据。全身灵巧操作需要记录的不只是手怎么动,还包括脚怎么站、身体怎么倾斜、重心怎么变化、接触发生时全身怎么响应——而这些信息,恰恰是很多主流数据采集方式很难完整覆盖的。
纯视觉第一人称数据容易规模化,但更多记录的是「看到了什么」,不直接包含身体内部的运动状态。数据手套能捕捉手部动作,但通常只覆盖手腕以下。传统遥操作和动作捕捉系统理论上能采到更完整的数据,但往往依赖固定场地和机器人本体,规模化成本很高。
这是Current Robotics自研HumanEx的原因。HumanEx是一套全身外骨骼数据采集系统,核心设计是把数据采集从机器人本体上解耦出来——人只需要穿戴外骨骼设备,在真实环境里像平时一样完成任务,系统就在后台同步采集全身姿态、关节运动、手部动作、本体感知信号、肌电信号以及环境交互数据,整个过程不需要先部署一台机器人。

这意味着采集场景可以从实验室扩展到工厂、办公室、家庭等更真实的环境中。数据规模的增长,也可以在一定程度上摆脱「有多少台机器人能跑多少小时」的限制,转向「人类真实任务发生了多少小时」。
Curr-0最终基于21,000小时真实人类行为数据训练,其中包含2,800小时全身示教数据。这些数据里有价值的,往往是人类在真实任务中自然产生的身体细节——脚什么时候调整支撑,手臂怎么补偿距离误差,接触瞬间手指和身体如何一起稳定下来。这类细节很难靠语言写成规则,也很难靠脚本化动作穷举出来,只能从真实任务中被采出来。
04.
模型和数据之后,
下一个瓶颈是物理世界本身
即使有了数据和模型,事情也还没有结束。全身灵巧操作接触多、自由度高,真实测试往往伴随较高的硬件、时间和场景复现成本。尤其是在接触状态连续变化的任务里,失败后的环境状态很难精确回到上一刻,这会直接限制评测和后训练的迭代效率。
Current Robotics盯上的正是这个问题。团队正在构建多物理模态的交互世界模型,覆盖视觉、本体感知和力觉等信号,作为物理世界的可扩展替代,承接策略评测、后训练和部署前验证。
在此基础上,团队进一步提出了Human-in-the-World-Model框架:让策略先在世界模型里执行任务,一旦出现错误或不确定情况,人类可以直接在世界模型内部介入修正,修正产生的数据立刻回流到后续训练中。这样一来,评测、人工干预、后训练三个原本相对割裂的环节,被放进同一个反馈层里持续运转,真实机器人则更多承担关键验证环节。
写在最后
把Curr-0、HumanEx和多物理模态的交互世界模型放在一起看:Curr-0解决的是模型问题——怎么把移动、全身姿态和手部精细操作放进同一个策略;HumanEx解决的是数据问题——这类全身耦合能力所需的大规模真实行为数据从哪里来;世界模型解决的是迭代问题——当真实物理世界的测试成本高、吞吐慢、状态难以回滚时,如何让评测和后训练跑得更快。
这三件事合起来,是一套围绕全身灵巧操作的系统。Current Robotics把这套体系归纳为三块基石:真实世界数据、可扩展的模型设计,以及足够快的迭代速度——真实数据提供物理经验,模型设计让推理、运动和交互作为耦合能力共同演化,快速的迭代闭环让每一次更新都能被验证和推向真实使用。
如果只看演示任务,Curr-0可能会被理解成「机器人会撕茶包、会点香、会盖章」。但更值得关注的是,这些任务背后是Current Robotics在尝试系统性回答一个问题:全身灵巧操作的突破,可能不只取决于某一个策略架构有多精巧,更取决于背后的数据基础设施、模型训练体系和迭代评测闭环,能不能真正转起来。
技术报告或请点击「阅读原文」:https://current-robotics.com/blog/curr-0

