首次实现2小时无辅助自主叠衣!清华AIR联合上海AI Lab开源通用具身基座模型X-VLA

智猩猩 2025-10-24 10:29

大会预告

首次实现2小时无辅助自主叠衣!清华AIR联合上海AI Lab开源通用具身基座模型X-VLA图1

11月19日,2025中国具身智能机器人大会将于深圳举办。聚焦人形机器人、工业具身机器人、机器人模仿学习与强化学习、VLA、世界模型等议题。首批嘉宾已公布,顶会CoRL 2025最高奖项获得者黄思远将出席,更多嘉宾即将揭晓。欢迎报名~


X-VLA团队投稿

智猩猩Robot整理


目前视觉-语言-动作(VLA)模型取得了显著进展学界普遍期望这类VLA 模型能把开箱即用的泛化鲁棒的操作能力相结合,既能完成简单的抓取操作,能胜任复杂的灵巧操作任务要训练出通用的VLA模型,关键在于依托大规模、跨具身、异构的数据集对多种不同的机器人平台进行高效训练。


为此,清华大学智能产业研究院(AIR)与上海人工智能实验室联合发布通用跨本体具身基座模型X-VLAX-VLA通过创新的Soft-Prompt机制、高效的框架设计与定制化训练范式,显著提升预训练效率与模型性能。该成果已获得IROS 2025 AGIBOT World Challenge (manipulation)冠军


X-VLA是首个实现120min无辅助自主叠衣任务的全开源模型(公开数据、代码与参数),以仅0.9B的参数量在五大权威仿真基准上全面刷新性能纪录,为具身智能领域提供了一个性能强劲、完全开源的新基线与技术范式。


首次实现2小时无辅助自主叠衣!清华AIR联合上海AI Lab开源通用具身基座模型X-VLA图2


1

核心亮点


 

2

方法


2.1 高效模型设计



首次实现2小时无辅助自主叠衣!清华AIR联合上海AI Lab开源通用具身基座模型X-VLA图3

2.2 大规模高质量异构数据预训练



首次实现2小时无辅助自主叠衣!清华AIR联合上海AI Lab开源通用具身基座模型X-VLA图4

2.3 定制后训练流程与技巧



3

实验结果


3.1 高效预训练:可扩展的架构优势


可扩展的架构优势X-VLA 的预训练缩放定律(Scaling Laws)曲线呈现出优异的线性增长趋势。这表明,随着模型参数以及训练数据规模的同步扩大,其在测试集的开环测试性能呈现稳定、可预测的提升。这一现象验证了所提出的 Soft-Prompt 机制与简洁Transformer架构的强大可扩展性,为构建更大规模的具身智能基座模型奠定了坚实基础。


首次实现2小时无辅助自主叠衣!清华AIR联合上海AI Lab开源通用具身基座模型X-VLA图5


3.2高效后训练:数据与算法的协同优化


得益于高质量的预训练基座,X-VLA 在后训练(微调)阶段展现出极高的数据效率与稳定性。针对不同的下游任务(如自主叠衣),只需使用中小规模的场景专属数据进行微调,模型便能快速适应并达到SOTA性能。这源于预训练阶段学习到的通用视觉-语言-动作表征,以及后训练中采用的定制化学习率策略与慢启动机制,它们共同确保了知识从通用域到特定任务的高效、稳定迁移。



在包括LIBERO、SIMPLER等在内的权威仿真环境中,X-VLA均取得了SOTA性能,显著优于现有同类模型。

 

首次实现2小时无辅助自主叠衣!清华AIR联合上海AI Lab开源通用具身基座模型X-VLA图6


在真实的机器人平台上,X-VLA在大量简单抓取和桌面操作任务中展现了强大性能,并成功完成了无限时长的自主叠衣任务,展示了其应对复杂长程任务的卓越能力。


首次实现2小时无辅助自主叠衣!清华AIR联合上海AI Lab开源通用具身基座模型X-VLA图7

4

总结


本论文提出了一个通用跨本体具身基座模型X-VLA该模型通过创新的Soft-Prompt机制、高效的框架设计与定制化训练范式,显著提升预训练效率与模型性能。X-VLA是首个实现120min无辅助自主叠衣任务的全开源模型以仅0.9B的参数量实现SOTA性能。


END


智猩猩矩阵号各专所长,点击名片关注




声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 开源
more
国航公布机舱锂电池自燃赔偿方案,小米中国区市场部总经理敲定,特斯拉拟取消实体钥匙卡,DS开源新模型,这就是今天的其他大新闻!
2025中文大模型终极PK:GPT-5一骑绝尘,国产开源却打出「性价比王炸」!
腾讯开源混元世界模型1.1,视频秒变3D世界,单卡推理仅需1秒
开源对机器人的价值,远超大模型时代的想象丨唐文斌深度对谈抱抱脸创始人
仅0.9B!百度新开源模型一夜登顶,识别109种语言,综合分全球第一
DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”
全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA
英伟达4段简短提示词,IOI夺金!开源模型也能征服最难编程竞赛
刚刚,Dexbotic开源!VLA性能+46%,机器人叠盘子100%成功,统一具身智能底座
NeurIPS 2025 | CMU、清华、UTAustin开源ReinFlow,用在线RL微调机器人流匹配策略
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号