AIR科研|X-VLA重磅开源,全面刷新机器人基准性能记录


     

     

清华大学智能产业研究院(AIR)与上海人工智能实验室联合发布全新通用跨本体具身基座模型:X-VLA。X-VLA是首个实现120min无辅助自主叠衣任务的全开源模型(公开数据、代码与参数),以仅0.9B的参数量在五大权威仿真基准上全面刷新性能纪录,为具身智能领域提供了一个性能强劲、完全开源的新基线与技术范式。

近年来,多模态大模型(MLLMs)发展迅猛,从看图说话到视频理解,似乎无所不能。但你是否想过:它们真的“看懂”并“想通”了吗?这些模型在面对复杂的、多步骤的视觉推理任务时,能否像人类一样推理和决策?
清华大学智能产业研究院(AIR)执行院长刘洋教授团队,联合清华大学计算机系、复旦大学带来重磅新作——EscapeCraft:一个3D密室逃脱环境,让大模型像真人一样“动脑逃生”,用于评估多模态大模型在视觉环境中,完成复杂任务推理的能力。测评结果却意外频出:模型常常看到了门,却一直绕着墙走;捡起钥匙,却忘了怎么用;甚至有模型想去“抓”沙发,理由是“可能有暗格”……这不是个别翻车。而是系统性的“看见不代表理解”。即便是 GPT-4o 这样的明星模型,也只有少部分子任务是真的想明白了完成的,其它全是歪打正着。
     
     

项目主页https://thu-air-dream.github.io/X-VLA/

代码https://github.com/2toinf/X-VLA.git

作者Jinliang Zheng*, Jianxiong Li*, Zhihao Wang, Dongxiu Liu, Xirui Kang, Yuchun Feng, Yinan Zheng, Jiayin Zou, Yilun Chen, Jia Zeng, Ya-Qin Zhang, Jiangmiao Pang, Jingjing Liu, Tai Wang, Xianyuan Zhan

AIR科研|X-VLA重磅开源,全面刷新机器人基准性能记录图1

核心亮点

AIR科研|X-VLA重磅开源,全面刷新机器人基准性能记录图2

核心方法

1.高效模型设计

AIR科研|X-VLA重磅开源,全面刷新机器人基准性能记录图3

2.大规模高质量异构数据预训练

AIR科研|X-VLA重磅开源,全面刷新机器人基准性能记录图4

3.定制后训练流程与技巧

实验结果

高效预训练:可扩展的架构优势

X-VLA 的预训练缩放定律(Scaling Laws)曲线呈现出优异的线性增长趋势。这表明,随着模型参数以及训练数据规模的同步扩大,其在测试集的开环测试性能呈现稳定、可预测的提升。这一现象验证了所提出的 Soft-Prompt 机制与简洁Transformer架构的强大可扩展性,为构建更大规模的具身智能基座模型奠定了坚实基础。

AIR科研|X-VLA重磅开源,全面刷新机器人基准性能记录图5

高效后训练:数据与算法的协同优化

得益于高质量的预训练基座,X-VLA 在后训练(微调)阶段展现出极高的数据效率与稳定性。针对不同的下游任务(如自主叠衣),只需使用中小规模的场景专属数据进行微调,模型便能快速适应并达到SOTA性能。这源于预训练阶段学习到的通用视觉-语言-动作表征,以及后训练中采用的定制化学习率策略与慢启动机制,它们共同确保了知识从通用域到特定任务的高效、稳定迁移。

在包括LIBERO、SIMPLER等在内的权威仿真环境中,X-VLA均取得了SOTA性能,显著优于现有同类模型。

AIR科研|X-VLA重磅开源,全面刷新机器人基准性能记录图6

在真实的机器人平台上,X-VLA在大量常规抓取和复杂桌面操作任务中展现了强大性能,并成功完成了不限时长的自主叠衣任务,且可零样本迁移部署至全新的环境,展示了其应对复杂长程任务的卓越能力。详细任务执行效果参见本文开头视频。

AIR科研|X-VLA重磅开源,全面刷新机器人基准性能记录图7


AIR长期招聘人工智能领域优秀科研人员

点这里关注我们


关于AIR



清华大学智能产业研究院(Institute for AI Industry Research, Tsinghua University,英文简称AIR,THU)是面向第四次工业革命的国际化、智能化、产业化的校级研究机构。AIR的使命是利用人工智能技术赋能产业升级、推动社会进步。通过大学与企业创新双引擎,突破人工智能核心技术,培养智能产业领军人才,推动智能产业跨越式发展。

AIR于2020年由多媒体及人工智能领域的世界级科学家、企业家张亚勤院士创建。

智慧交通(AI+Transportation)、智慧物联(AI+IoT)、智慧医疗(AI+Life Science)是清华大学智能产业研究院的三个重点研发方向。

往期精彩:

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 开源 机器人
more
总投资10亿元的机器人基地签约落地!预计达产后年产值不低于7亿元
全球首个!RoboChalleng登场,开启大规模机器人实体评测
2025具身智能移动机器人产业峰会演讲嘉宾阵容大揭秘!
德国明星人形机器人企业收购本土知名移动机器人厂商
2025全球十大工程成就发布!DeepSeek、人形机器人等入选
MPS人形机器人解决方案|“芯片+算法+系统”三位一体的创新驱控
刚刚,UCLA周博磊也加入了一家机器人公司
万字长文|人形机器人应用趋势、挑战及建议
2025年Q3移动机器人行业融资情况:11起,总额超16亿
派斯林:正式发布首款六足仿生智能机器人
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号