点击下方卡片,关注“具身智能之心”公众号
作者丨Puhao Li等
编辑丨具身智能之心本文只做学术分享,如有侵权,联系删文
>>
更多干货,欢迎加入国内首个具身智能全栈学习社区:(戳我),这里包含所有你想要的。
近年来,预训练VLA (Vision-Language-Action) 模型展现出极大的潜力,但要让机器人学会新任务,仍需依赖大规模、精确的动作序列。为解决这一问题,北京通用人工智能研究院联合星尘智能等单位提出了一种物体中心表征的微调框架——ControlVLA 。可让机器人通过极少量(仅10-20次)人类示范,就迅速掌握如倒水、叠衣服、以及长序列物品收纳等复杂任务,成功率超过75%,相较传统方法提升近4倍,大幅缩短了机器人的训练时间和成本,展示了“通智大脑”在少样本学习下,出色的泛化与执行能力。
该研究成果已被9月27日在韩国首尔举办的Conference on Robot Learning (CoRL) 2025 会议收录发表,这是机器人学与机器学习交叉领域全球顶级学术会议。
该成果是基于星尘智能AI机器人Astribot S1完成,该产品是“Design for AI”理念下设计的绳驱AI机器人,借助独特的绳驱传动,机器人刚柔并济,实现了传统刚性机器人难以兼顾的高表现力与高安全力。绳驱模仿了人类肌腱的运动与力控方式,让机器人像人一样通过“收缩”和“放松”来驱动关节,通过电机驱动腱绳产生力量和运动,可进行复杂、精细、高动态运动。此外,绳驱让机器人硬件具备了结构轻量化、低摩擦性(传动效率>90%)、高回驱性(>80%,即腱绳可有效反向恢复其原始状态的能力)等特点,带来柔性缓冲与高分辨力控,特别适合需要精细触觉反馈的AI任务。

论文链接:https://arxiv.org/abs/2506.16211 项目主页:https://controlvla.github.io 主要作者:清华大学博士生李浦豪、清华大学本科生巫莹莹等。
成果简介
ControlVLA 利用现有大规模机器人操作数据集预训练VLA模型模仿人类操作动作,通过 ControlNet 风格的架构将预训练的 VLA 模型与以对象为中心的表示连接起来,以针对具体的任务实现高效的微调(如图1所示)。具体来说,为了在不覆盖先验知识的情况下引入以对象为中心的条件,ControlVLA 对一组投影层进行零初始化,使得它们能够逐步微调预先训练的操作策略,进而高效泛化与执行新的任务。

一、研究背景
机器人在现实世界中完成操作任务一直面临巨大挑战,尤其是在演示数量有限的情况下。现有的少样本操作方法通常依赖于仿真增强数据[1, 2, 3],或预构建的抓取与位姿估计模块[4, 5],但这类方法不仅难以克服仿真到现实之间的差距,也缺乏可扩展性。近年来,基于大规模模仿预训练的VLA模型展现出强大的泛化能力[6,7],有望支持机器人在多任务、多环境中表现一致的行为。然而,将这些通用模型高效地适配到具体任务上,特别是在数据稀缺场景中,依然是一个未被充分探索的难题。
近年来的工作[8, 9]尝试通过引入物体中心(object-centric)的表示,来提升模型对任务关键物体属性(如形状、大小和位置)的关注,减少输入观察空间的复杂度,提升策略对物体位姿变化与环境噪声的鲁棒性。然而,这类方法通常仍需要数百条演示数据才能有效学习任务,无法充分发挥大规模VLA模型的先验优势。
二、研究方法

针对上述挑战,本文提出了一种新颖的 ControlVLA 框架(如图2所示),旨在将预训练的VLA模型与物体中心表示结合,实现机器人操作任务的高效少样本微调。核心思想是通过一种类似ControlNet的微调方法[10],在保留VLA模型丰富先验知识的同时,引入对任务关键物体的关注条件,逐步适配到具体任务上。
具体而言,ControlVLA 的工作流程分为三步:
大规模VLA模型预训练。首先,在多任务大规模操作数据集上预训练通用VLA策略模型,学习从视觉、语言指令和机器人本体状态到动作空间的条件分布,为后续任务提供强大的技能先验。
物体中心表示提取。通过GroundingDINO和SAM2,对演示视频帧中的任务相关物体进行分割与跟踪,获取一致的物体实例掩码。进一步,提取每个物体的几何特征(通过CNN获取局部几何信息)与位置特征(基于正弦位置编码表示物体中心点坐标),二者拼接形成最终的物体中心表示。
ControlNet式微调适配。在少量任务演示上,通过在预训练VLA模型的交叉注意力结构中引入零初始化的Key-Value投影层,将物体中心表示作为额外条件输入,形成双重注意力机制。这一设计保证了模型在微调初期保持与预训练策略一致,避免引入无效噪声,并能稳定地将任务关键物体信息融入策略生成过程中。
综上,ControlVLA 的设计通过结合VLA 预训练模型与物体中心表示,在保持通用操作先验的同时,引入对任务关键物体的精准关注,显著提升了少样本场景下的适配效率。在微调过程中,零初始化的 ControlNet 风格结构确保了模型能够稳定地整合新的物体条件,而不破坏已有策略的泛化能力。该方法不仅降低了对大规模演示数据的依赖,也提升了对复杂场景、长时序任务以及未见过物体与环境的鲁棒性与扩展性。整体而言,ControlVLA 为机器人在现实世界中高效获取多样操作技能提供了全新的解决方案,推动了机器人操作任务向“少样本、高泛化”方向的进一步发展。
三、实验结果


在实验中,研究团队在星尘智能AI机器人Astribot S1上进行开发及测试,证明了ControlVLA 在真实环境中不仅能高效完成短期任务,还能稳定执行复杂的长期任务。
研究团队在8个现实世界任务中进行了实验,每个任务仅使用10-20条演示数据进行训练(如图3所示)。

实验结果表明,ControlVLA 在所有短时序任务中均显著提升了成功率,总体成功率达到 76.7%,远超传统方法 20.8% 的水平。具体任务包括刚体的放置、软体玩具整理、精细操作(如剪刀放置)、关节物体操作(如开柜门)、可变形物体折叠(如叠衣服)及倒水等行为。

在长时序任务(如多物体分类整理、抽屉物体替换)中,ControlVLA 同样表现出色,平均成功率达到 60%,约为现有最佳方法的 3 倍。这些任务要求机器人依次完成多个子目标,ControlVLA 展现出在长序列执行中减少误差积累的能力。


在 OrganizeToy 任务中,ControlVLA使用 20 条演示数据即可达到 80% 成功率,而其他方法即使使用 100 条演示也未能达到同等表现。这意味着 ControlVLA 能够大幅减少真实操作演示采集的成本。

针对模型的泛化能力,研究团队在未见过的物体(面包、香蕉、橙子)与新背景下对模型进行测试,ControlVLA 仍保持 60%-70% 的任务成功率,展现了其在动态多变环境下的鲁棒性。

ControlVLA 通过零初始化的投影层在预训练策略与任务相关物体表示之间建立稳定连接,在保留通用先验知识的同时逐步引入结构化的物体信息,实现了少量示范下的稳定微调。实验表明,在 8 项真实世界任务(包括刚体放置、可变形物体折叠及长时序收纳整理等)中,ControlVLA 平均成功率达到 76.7%,显著超越基线方法。
ControlVLA 在极少样本学习场景下,依托于 VLA 预训练与物体中心表示的结合,配合 ControlNet 风格微调,仅需少量演示即可稳定完成复杂机器人操作任务,为真实世界机器人部署提供了可行路径。这一技术有望在未来显著提升机器人在家庭、商业及工业等不同场景中的应用水平,让机器人更快、更准确地“上岗工作”。
“通智大脑”是北京通用人工智能研究院打造的通用具身机器人大脑。基于全球首个通用智能人“通通”核心技术,“通智大脑”构建了贯通感知-理解-决策-执行闭环的具身智能体框架,旨在为不同的机器人本体赋予类人级别的物理智能。机器人可以通过“通智大脑”的空间感知和记忆功能理解场景、任务、反馈等信息,进行深度推理与价值驱动决策后,联通视觉与动作策略,实现在真实物理世界中可解释、自适应且目标导向的智能物理交互。
参考文献
[1] Mandlekar, Ajay, et al. "Mimicgen: A data generation system for scalable robot learning using human demonstrations." arXiv preprint arXiv:2310.17596 (2023).
[2] Torne, Marcel, et al. "Reconciling reality through simulation: A real-to-sim-to-real approach for robust manipulation." arXiv preprint arXiv:2403.03949 (2024).
[3] Mu, Yao, et al. "Robotwin: Dual-arm robot benchmark with generative digital twins (early version)." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2024.
[4] Zhu, Junzhe, et al. "Densematcher: Learning 3d semantic correspondence for category-level manipulation from a single demo." arXiv preprint arXiv:2412.05268 (2024).
[5] Hsu, Cheng-Chun, et al. "Spot: Se (3) pose trajectory diffusion for object-centric manipulation." 2025 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2025.
[6] Liu, Songming, et al. "Rdt-1b: a diffusion foundation model for bimanual manipulation." arXiv preprint arXiv:2410.07864 (2024).
[7] Black, Kevin, et al. ": A Vision-Language-Action Flow Model for General Robot Control." arXiv preprint arXiv:2410.24164 (2024).
[8] Zhu, Yifeng, et al. "Viola: Imitation learning for vision-based manipulation with object proposal priors." Conference on Robot Learning. PMLR, 2023.
[9] Zhu, Yifeng, et al. "Learning generalizable manipulation policies with object-centric 3d representations." arXiv preprint arXiv:2310.14386 (2023).
[10] Zhang, Lvmin, Anyi Rao, and Maneesh Agrawala. "Adding conditional control to text-to-image diffusion models." Proceedings of the IEEE/CVF international conference on computer vision. 2023.