点击下方卡片,关注【Xbotics具身智能实验室】公众号
更多具身干货,欢迎加入(戳我)
👉具身智能学习资料汇总:https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-Guide
👉具身智能求职/实习信息汇总:https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-AI-Job
你想要的这里都有~~
引言:从 Mobile Manipulation 到 Loco-Dexterous Manipulation
具身智能正在经历一次关键的概念迁移。过去几年,行业习惯将“移动”和“操作”分开讨论,仿佛机器人先走到桌边,站稳,再抬起手臂完成抓取,是一套自然的分步流程。但真实的人类行为极少以这种方式运作。人踮脚取物、探身擦拭、怀抱物品用肘部顶开门——身体的每一次姿态调整都在为手部接触创造条件,手部的每一次受力又反过来改变身体的平衡状态。
Current Robotics 此次发布的 Curr-0 系统,没有使用行业通用的 Mobile Manipulation,而是用了一个更精确的词:Loco-Dexterous Manipulation。这个命名本身就是一种技术立场的宣告:移动和灵巧操作不是先后关系,而是同一闭环里的共生变量。灵巧不只在手,而在全身。
本文将以“撕开茶包”这个高密度任务为手术刀,逐层切开 Curr-0 全身灵巧操作的内部构造。

一、以茶包为手术刀,切开全身控制的每一层
撕开茶包这个动作,人类做起来只需要三秒,对机器人而言,这三秒里密集压缩了视觉理解、接触规划、力控执行、全身姿态协调和动态稳定性维护等多重技术难题。
第一阶段是拿取。机器人需要单手捏起茶包。头部的第一人称视觉系统识别茶包的位置、姿态和撕口方向,System 2 推理层将视觉信息与任务指令结合,形成“当前任务阶段:拿取茶包,准备撕开”的语义判断。与此同时,System 0 灵巧操作层在接触建立的瞬间感知材料硬度、表面摩擦和形变反馈,在一个极窄的力窗口内维持稳定夹持。这个力窗口不是预设的,而是从大量人类数据中训练出来的——人在拿取茶包时用的力,早已被 HumanEx 手套记录并重定向到了机器人的策略里。
第二阶段是撕开。一只手固定茶包本体,另一只手夹住撕口边缘沿材料薄弱方向施加拉力。双手之间的力关系极其微妙:固定的手需要提供恰到好处的反作用力,让撕口处的应力集中;撕拉的手则需持续调整拉力方向和速度。System 1 全身运动层在这一刻进入工作。双臂向外的拉力会通过肩部、躯干传导到髋部和腿部,机器人必须微调躯干姿态,腿部持续进行压力中心调整,补偿上肢扰动力矩。System 0 灵巧操作层则承担最精密的活:指尖在材料撕裂过程中持续感知接触状态,自动调整夹持位置和施力方向,让撕裂沿着薄弱路径传播。三层配合,从秒级任务规划到毫秒级接触响应,构成了全身灵巧操作的神经网络。
第三阶段是放置。茶包撕开后,细绳和标签因为应力释放而晃动。机器人需要把茶包放入杯中,同时让标签留在杯外。Demo 中最惊艳的细节出现在这里:机器人用中指、无名指和小指将晃动的细绳压住,再稳稳放下去。这个动作之所以惊艳,是因为它太像人了。人在同样场景下的策略如出一辙:用掌心和大拇指夹住茶包主体,同时用小指和无名指作为辅助支点固定绳索。这种指间分工是身体长期形成的操作直觉。Curr-0 能在没有显式编程的情况下复现这一策略,说明它的灵巧是从数据中沉淀出来的操作智慧。
二、灵巧的物理本质:耦合与补偿
全身灵巧操作之所以困难,根本在于耦合。在机器人动力学方程里,没有任何一个关节是孤立的。手臂前伸时质心前移,髋、膝、踝必须协同调整;双手外拉时躯干受到的力矩会立刻改变足底压力分布。如果此时机器人还在行走,步态周期、身体摆动和上肢操作就会被压缩进同一个时间窗口。
传统方法倾向于解耦处理——走时不操作,操作时不走。这在简单场景里够用,但面对撕茶包、点香、用肘部撞门等连续全身协调任务时就彻底失效。Curr-0 的设计哲学是不解耦。System 1 全身运动层不认为自己的任务只是“站好然后把手递给 System 0”,而是将下肢行走、躯干稳定和上肢动作放进同一个控制循环。当 System 0 的灵巧手拉扯茶包时,System 1 已经在预测拉力对姿态的影响并提前补偿。
但要实现这种不解耦控制,需要解决一个更深层的问题:时间尺度对齐。System 2 推理层工作在秒级,思考“现在应该做什么”;System 1 需要几十赫兹协调全身姿态和力矩;System 0 需要几百赫兹检测接触事件、调整指尖力。三个层级的频率差异超过两个数量级,如果接口没有对齐,高层语义命令下达时身体姿态还没准备好,或底层接触反馈发生时中层运动已使接触脱开。
Curr-0 的解决方案是分层预训练加联合微调。System 2 在预训练阶段学会输出与任务阶段匹配的潜在意图表征,同时预测上身运动趋势,为 System 1 提供姿态先验。System 1 从大量全身人体数据中学到“在各类姿态下保持稳定”的基本身体技能。System 0 学会在各种接触模式下稳定执行抓取、捏取、指尖微调。联合微调阶段,三层接口被损失函数强制对齐——高层的意图表达适配中层能稳定执行的姿态空间,中层的运动轨迹适配底层能完成的接触模式,底层也学会在中层给出的运动边界内完成任务。
回到小指压绳的瞬间。System 2 判断当前处于放置阶段,输出把茶包放入杯中、标签保留在外的意图;System 1 根据意图和当前身体状态计算出微调躯干和手臂以靠近绳索的轨迹;System 0 在轨迹执行中检测到绳索与手指的接触,立即建立稳定夹持,并在绳索晃动时动态调整指尖力。三层信号在闭环中高速流转,才完成了那个轻巧的动作。
三、没有写进脚本的“附带行为”
如果只有显式的任务动作,机器人永远不可能达到人类的灵巧程度。真正的灵巧操作中,大量关键细节不在脚本里:撕包装时手腕自动寻找材料薄弱方向,处理晃动细绳时小指无意识伸出压住一端,用打火机点香时拇指以极难描述的角度扣动按钮。这些动作操作者自己往往意识不到,却对任务成功至关重要。
Current Robotics 给这类行为起了一个精准的名字:Incidental Human Behavior,附带人类行为。附带,意味着它们是为实现主要目的自然产生的伴随动作。这些行为难以用规则编写,也难以在遥操作中被有意识复现——操作员输出的是“完成任务所需的最小动作集合”,而非自然状态的完整操作流。动捕系统虽能记录关节角度,但操作者知道自己在被记录,动作会不自觉变得规范化。纯视觉数据规模大,像素里却藏不住手指的微接触和力方向。
HumanEx 穿戴式采集系统的设计,正是为了解决附带行为的采集问题。头上是第一人称视觉单元,手上是外骨骼手套直接读取手指关节角度,身上是全身绑带式外骨骼捕捉躯干和腿部的运动链,同时用肌电传感器补充肌肉激活信息。整套系统被设计成柔性穿戴设备,操作者穿着它在真实厨房泡茶、在真实办公室盖章、在真实房间收拾玩偶。他们是在自然地进行日常操作,附带行为就在这个过程中原封不动地被录入数据流。
数据经过时间同步和人体-机器人运动学重定向后,成为 Curr-0 训练集的组成部分。附带行为没有单独标注或单独训练,而是在行为克隆框架下被策略整体吸收。模型在模仿人类完整操作序列时,顺便学会了那些未被标记的微动作。当 Curr-0 用小指压住绳子、用指缝夹持纸团、用肘部顶开门时,它是在复现从人类数据中学到的操作模式。这正是全身灵巧从“能用”走向“像样”的关键。
四、灵巧不再是手的问题,而是系统问题
撕开茶包的瞬间,视觉在定位,推理层在判断任务阶段,全身运动层在维持平衡,灵巧手在进行毫秒级接触控制。更外围的,世界模型 dWorldEval 在部署前已在虚拟环境中对类似策略做过评估和筛选,Hi-WM 人入世界模型框架在训练阶段针对接触失败边界做过纠正数据增强。所有这些子系统咬合在一起,才产生了那一个流畅的、像人一样的操作。

这意味着,单点能力的提升无法通向全身灵巧。更好的灵巧手、更强的视觉模型、更稳的步态算法都很重要,但如果没有一个完整系统框架将它们整合成统一策略,就无法解决“身体多一个自由度,错误传播多一条路径”的复杂度爆炸问题。Curr-0 的价值不只在于五个 Demo,更在于它展示了这种系统整合的可行路径。
分层架构解决了时间尺度的分离与对齐问题。训练策略让不同来源、不同保真度的数据在联合微调中融合为一致策略——System 1 先学习全身稳定,System 2 和 System 0 分别学习语义理解和接触控制,再通过混合数据联合微调,将各种先验焊接到同一策略空间。数据采集系统把人类操作中显性和隐性的行为同时转化为训练信号。世界模型则把评估和纠偏从昂贵的真机测试迁移到可并行的虚拟环境,实现了从“真机试错”到“模型里筛选”的范式转移。
这四段齿轮咬合在一起,才让高维度的身体真正听从意图,稳定地、灵巧地完成精细的物理交互。撕开茶包的瞬间,机器人验证的不只是它学会了泡茶,而是它长出了一种真正意义上的全身灵巧神经——那是一套从数据、模型、训练到评估的全栈系统工程。这才是 Curr-0 带给这个行业最重要的启示。
tech report:https://current-robotics.com/blog/curr-0

-END-
Ask Me Anything|提问箱
❝对文章有疑惑,或想聊更深?欢迎把你的问题丢给我们:技术方案、实操踩坑、课程与资料、项目合作、职业发展,都可以问。
怎么问:在评论区留言,或私信公众号
我们会做什么:每周集中整理高质量问题并公开回复,重点问题邀请作者或嘉宾深度解答;典型问题会加入知识库并持续更新。
提问小提示:尽量说明「你的目标—当前做法—期望产出」,附上必要信息(硬件/软件版本、数据规模等),能更快获得有用答案。
一起把问题变成知识,推动社区进步 🚀
