性能超越GPT和Google，北京人形机器人创新中心开源全球最强具身VLM

2025年11月14日，北京具身智能机器人创新中心正式发布Pelican-VL 1.0具身视觉语言模型（VLM），不仅宣称性能超越GPT-5同类模型和Google Gemini系列，更以"全球最大规模开源具身多模态大模型"的身份，展示了中国在具身智能领域的技术硬实力。

具身智能，简单来说就是让机器人像人类一样感知世界、做出决策并执行动作的技术，而视觉语言模型（VLM）相当于机器人的"眼睛"和"大脑中枢"，负责把看到的图像信息转化为可理解的语言指令，再规划出具体的行动步骤。

图Pelican-VL 1.0（中文是塘鹅或者鹈鹕的意思）在抱脸虫和魔搭都可下载

Pelican-VL 1.0称为"视觉语言大脑"，它的开源有力推动了具身智能技术的进步。

一、北京人形机器人创新中心和Pelican-VL的核心团队

最近频繁见诸报道的北京人形机器人创新中心，其专家委员会由中国科学院院士乔红担任主任。

图我国六大人形机器人中心汇总，来自网络

其中北京人形机器人创新中心（国家地方共建具身智能机器人创新中心）2023 年 11 月成立，是中国首家省级人形机器人创新中心，由小米机器人、优必选科技、京城机电、中国科学院自动化所等企业共同组建。2024 年 10 月 10 日，挂牌为 “国家地方共建具身智能机器人创新中心”。北京人形机器人创新中心在推动我国人形机器人自主技术突破和生态体系建设方面，取得不少代表性成果：

比如通用机器人母平台“天工” 系列，是全球首个全尺寸纯电驱拟人奔跑的人形机器人，具备12公里/小时的实测奔跑速度，并能稳定适应多类复杂地形。其结构设计文档、软件开发接口、URDF模型等关键资料已全面开放，成为产学研机构开展二次开发和场景验证的核心硬件平台。当前，已有上百家机构基于“天工”进行二次开发，北京大学、华中科技大学等高校与中心共建联合实验室，推动基础研究向实际产品转化。

图Pelican-VL发布现场截图

而这次Pelican-VL发布也是近期重要成果之一。值得注意的是，Pelican-VL的核心主创团队都是由女性组成，这也充分体现了女性力量在我国科技研发中的重要贡献。

二、核心技术--DPPO（刻意训练）

Pelican-VL能够实现性能突破，核心秘诀在于其全球首创的DPPO（Deliberate Practice Policy Optimization，刻意训练）训练范式。这一全新的后训练自进化算法框架，彻底改变了传统大模型"海量数据堆出来"的低效模式，让模型能够用更少的数据实现更好的性能。

传统的大模型训练往往遵循"多多益善"的逻辑，为了提升性能，需要投喂海量的训练数据，成本高昂，这种成本体现在准备庞大的数据量和需要庞大的计算资源。比如某些主流模型为了达到不错的具身任务表现，需要使用100万到500万条数据进行训练，而Pelican-VL通过DPPO范式，仅用20万条数据（200k）就实现了性能超越，数据用量仅为同类模型的1/10甚至1/50。这种"小数据大成效"的突破，堪称大模型训练领域的一次革命。

那么DPPO"刻意训练"到底是什么原理？简单来说，它模仿了人类高效学习的过程——就像优秀学生不会盲目刷题，而是会针对性地攻克薄弱环节一样，Pelican-VL的训练过程也形成了"观察-练习-纠错-提升"的闭环。具体而言，这个过程分为三个核心步骤：首先，模型通过观看大量具身任务视频（如机器人抓取物体、上下楼梯等）建立基础认知；然后，模型自主尝试执行相关任务，在虚拟环境中进行大量"练习"；最后，系统会自动识别模型执行中的错误和薄弱点，生成针对性的训练样本，再通过监督微调（SFT）让模型集中"补课"，实现精准提升。

性能超越GPT和Google，北京人形机器人创新中心开源全球最强具身VLM图4

图Pelican-VL控制机械手夹薯片而不碎

DPPO 与传统训练方法的本质区别主要是以下四点：

元认知能力：模型不仅学习任务，还学习 "如何更好地学习"；

错误驱动优化：通过主动探索识别弱点，生成 "失败样本" 进行专项训练；

高效数据利用：仅需 20 万条数据实现同类模型 50 倍的数据效率；

自进化能力：部署后仍能在应用中持续自我优化。

DPPO 包括两个关键阶段：

第一阶段：强化学习探索

模型在虚拟环境中执行任务，收集经验数据；

通过 rollout (轨迹采样) 发现模型弱点和困难案例。

第二阶段：针对性监督微调

将第一阶段发现的 "失败样本" 作为高质量训练数据；

通过监督学习 (SFT) 针对性改进模型的薄弱环节。

图DPPO类似于一种更高层次的注意力机制，注意力聚焦难例数据

为了验证DPPO的有效性，团队做了一组对比实验：用相同规模的72B参数模型，分别采用传统训练方法和DPPO方法进行训练，在相同的测试集上评估性能。结果显示，DPPO训练的模型在视觉理解准确率上提升了20.3%，在动作规划合理性上提升了25.1%，而训练时间却缩短了40%。这一数据充分证明，高效的训练方法远比单纯增加数据量更有价值。

三、集群规模、数据量、参数量、性能对比

俗话说“一力降十会”，再好的训练技巧也需要强大的硬件资源来支持，否则很容易被巨头用巨量的计算资源来淹没。Pelican-VL背后的训练资源也是可观的，充分放大了优越的训练技术。

首先看计算资源支撑。大模型训练对计算能力的要求极高，尤其是具身多模态模型，需要同时处理图像、语言、动作等多种数据，对硬件的并行计算能力提出了更高要求。Pelican-VL的训练基于一个由1000多块A800 GPU组成的专用计算集群，这种规模的集群在全球高校和科研机构中都属于顶尖配置。据团队透露，仅一次完整的模型检查点训练（相当于模型的一次"阶段性考试"），就耗费了超过50000 A800 GPU-小时的计算资源——这意味着如果用单块A800 GPU进行训练，需要连续工作近6年才能完成。强大的计算集群为DPPO训练范式的高效运行提供了坚实保障，让模型能够在短时间内完成大量的"刻意练习"和自我优化。

NVIDIA A800显卡的市场价格通常在12万至15万元人民币之间，这还是基础版，千卡集群即使不考虑电力消耗和集群组装费用，光是显卡也是1.2个小目标，基本可以劝退任何个人研究者。

图NVIDIA A800显卡配置图。来自网络

在参数规模方面，Pelican-VL提供了7B和72B两种版本，覆盖了不同的应用场景需求。7B参数的轻量版模型可以部署在机器人本地终端，满足实时响应的需求；而72B参数的完整版模型则具备更强大的复杂任务处理能力，主要用于云端的大规模任务规划和模型优化。这种"轻重结合"的设计，既保证了实际应用中的灵活性，又兼顾了性能的最大化。相比之下，GPT-5的具身相关模型参数规模多在50B左右，Google Gemini的同类模型则以34B和68B为主，Pelican-VL的72B参数版本在规模上形成了优势，同时通过优化的模型架构，避免了参数冗余导致的效率下降。

数据质量是决定模型性能的另一关键因素。Pelican-VL的训练数据并非简单堆砌，而是经过了严格的筛选和蒸馏。团队从工业场景、家庭服务、特种作业等12个领域收集了原始数据，然后通过算法筛选出其中高质量的样本，最终提炼出包含数亿token的元数据集作为训练基石。这些数据不仅涵盖了不同场景下的视觉图像、语言指令和动作序列，还包含了大量的"失败案例"——这正是DPPO训练范式所需要的宝贵资源，让模型能够从错误中学习。与GPT和Google模型使用的通用数据不同，Pelican-VL的数据更聚焦于具身任务，数据与任务的匹配度更高，这也使得模型在实际应用中表现更出色。

最引人关注的还是性能对比结果。团队采用了全球公认的具身智能评估基准（包括BEV-Robot、EmbodiedGPT等测试集），从视觉理解、语言交互、动作规划、环境适应四个维度，对Pelican-VL与国际主流模型进行了全面对比测试。测试结果显示，Pelican-VL的综合性能超越GPT-5同类模型15.79%，比Google Gemini系列模型提升19.25%，同时也领先于国内的通义千问、书生万象等模型。

图Pelican-VL性能对比，来自网络

在具体任务上，Pelican-VL优势表现明显。比如在"无序物体抓取"任务中，要求机器人通过视觉识别杂乱堆放的物体，判断每个物体的位置和形态，然后规划抓取路径，避免碰撞，对模型的空间推理能力要求极高。Pelican-VL之所以能有出色表现，得益于其对三维空间的精准理解和对物理规则的深刻掌握。

在"复杂场景交互"任务中，比如让机器人在家庭环境中"帮老人取药并提醒服药时间"，Pelican-VL需要完成多个连续步骤：先通过视觉识别老人的位置和状态，找到药箱并识别正确的药品，然后用自然语言与老人沟通，确认服药信息，最后规划移动路径将药送到老人手中。在这个任务中，Pelican-VL不仅能看懂、听懂，还能做出符合逻辑的连续动作。

另外，Pelican-VL在"泛化能力"上表现突出。所谓泛化能力，就是模型在陌生场景中的适应能力。测试中，团队特意设置了训练数据中没有的"沙地行走取物"和"斜坡环境操作"等场景，Pelican-VL的任务成功率仍保持在80%以上。这源于DPPO训练范式带来的增强"举一反三"能力，让模型能够将在熟悉场景中学到的知识，可以扩展泛化到新环境中。

四、VLA系统的"大脑"：连接视觉、语言与动作

要理解Pelican-VL的价值，就必须放在Vision–Language–Action（视觉-语言-动作，简称VLA）系统的框架中来看。如果把VLA系统比作一个完整的"智能体"，那么视觉模块是"眼睛"，动作执行模块是"手脚"，而Pelican-VL就是这个智能体的"大脑"——负责接收视觉信息，理解语言指令，然后向"手脚"下达精准的动作命令。这个很类似在自动驾驶中自动驾驶域控的地位。

传统的机器人系统中，视觉、语言和动作模块往往是相互独立的：视觉模块负责识别物体后，将简单的坐标信息传给动作模块；语言模块只能处理固定的指令，无法理解复杂的自然语言；各个模块之间缺乏有效的协同，导致机器人只能执行预设的简单任务，无法应对复杂多变的实际场景。而Pelican-VL的出现，打破了这种"信息孤岛"，实现了三个模块的深度融合。这种融合带来的是可以执行高度抽象的复合指令，以下面这个复合指令为例：“把鞋子放到鞋架上、将桌上的垃圾扔到垃圾桶，再把衣服放入洗衣机”。Pelican-VL 首先将会感知房间物体和布局，构建出整个环境的语义表示；接着根据指令自动生成行动序列：依次移动到鞋架、垃圾桶和洗衣机位置并进行抓取和放置操作。

图Pelican-VL整理房间，来自原始论文

Pelican-VL与"天工"机器人平台的结合，充分展现了其作为"视觉语言大脑"的强大能力。在创新中心的研发测试区，"天工"机器人在Pelican-VL的控制下，能够在跑步机上平稳奔跑，灵活上下楼梯和斜坡，还能通过语音交互理解用户需求，完成无序抓取等复杂任务。比如当测试人员说"把桌子上的红色文件递给我"时，Pelican-VL会快速识别出桌子上的多个物体，定位到红色文件的位置，规划出机械臂的移动路径，避开障碍物，精准抓取文件并递到测试人员手中。整个过程流畅自然，反应速度与人类相当。

五、中国技术通过开源改写全球具身智能生态

Pelican-VL的发布，以开源的方式，为具身智能产业发展注入了新的活力。在人工智能领域，开源与否往往决定着技术的普及速度和生态影响力，而北京具身智能机器人创新中心选择开源Pelican-VL，表现了中国科技企业的开放胸怀和自信。

在此之前，全球主流的具身VLM技术大多掌握在少数科技巨头手中，要么不对外公开，要么只提供有限的API接口，开发者无法深入了解模型架构和训练方法，这极大地限制了技术的创新和应用。而Pelican-VL的全面开源，意味着全球开发者都可以免费获取模型代码、训练数据和使用手册，不仅可以直接使用模型，还能根据自身需求进行二次开发和优化。这种开放共享的模式，将加速具身智能技术的迭代速度，让更多创新想法得以落地。

开源带来的直接影响是降低了具身智能技术的应用门槛。在此之前，一家中小企业要开发智能机器人，往往需要投入巨资组建大模型研发团队，这对大多数企业来说难以承受。而有了开源的Pelican-VL，企业可以直接基于现有模型进行适配和优化，将更多精力投入到具体应用场景的开发中。比如制造业企业可以利用Pelican-VL快速开发出适合自身生产线的装配机器人，养老机构可以定制具备情感交互能力的服务机器人，大幅降低研发成本和周期。

从产业生态的角度来看，Pelican-VL的开源将带动一条完整的产业链发展。大量开发者的参与将形成丰富的应用生态，围绕Pelican-VL开发出适用于不同行业的解决方案，进一步拓展具身智能的应用边界。创新中心已经与15家国家科研平台、高校和产业链核心企业签订了合作协议，未来还将构建更庞大的"生态朋友圈"。