重磅！physical intelligence推出π0.7：像搭积木一样，把从不同任务里学到的技能重新组合

点击下方卡片，关注“具身智能之心”公众号

今天，pi团队在其博客中正式官宣π0.7，又出新的技能了！

重磅！physical intelligence推出π0.7：像搭积木一样，把从不同任务里学到的技能重新组合图1

博客链接：https://www.pi.website/blog/pi07

paper链接：https://www.pi.website/download/pi07.pdf

我们也第一时间也更新到了社区内：，欢迎加入，最新技术和产业信息，一览无余。

unsetunsetπ0.7：机器人领域的“全能选手”来了unsetunset

pi团队训练了一个名为 π0.7 的新模型，它在通用性上实现了一个质的飞跃。这是一个通用模型，它不仅能像那些经过专门微调的“偏科生”一样，出色地完成各种灵巧操作任务，更重要的是，它能听懂新的语言指令，甚至完成训练数据里从未出现过的任务。

重磅！physical intelligence推出π0.7：像搭积木一样，把从不同任务里学到的技能重新组合图2

在实验中，π0.7 展现出了组合式泛化的初步迹象——它能像搭积木一样，把从不同任务里学到的技能重新组合，去解决新问题。比如，它会使用全新的厨房电器，甚至能让一个从未见过“叠衣服数据”的新机器人学会叠衣服。

unsetunset为什么说这是突破？unsetunset

虽然大家一直觉得“泛化能力”应该是机器人基础模型的看家本领，但之前的模型其实都没做到像大语言模型（LLM）那样广泛的“组合式泛化”。

大语言模型（LLMs） 早就做到了这一点：如果它知道怎么把英语翻译成法语，又知道怎么输出 JSON 格式，那它就能直接给你输出“JSON 格式的法语翻译”。
视觉-语言-动作模型 虽然能理解各种语义概念，但之前还没人能证明它们能像这样把技能组合起来（比如使用新工具）。以前要想效果好，通常还得针对特定技能去微调模型。

但真正的“全能模型”应该是拿来就能用，还能灵活组合技能。π0.7 就做到了：它既有之前微调版模型（π*0.6）的速度和稳健性，又能跨机器人平台、跨场景地去解决新任务。下面这些例子展示了它的能力，从精细操作到长流程的家务活，一个模型全搞定，无需额外训练。

unsetunset是什么让 π0.7 具备了如此广泛的泛化能力？unsetunset

对于基础模型来说，实现泛化的关键在于使用广泛且多样化的数据。在pi的案例中，这些数据不仅来自许多不同的机器人，还包括人类操作数据，甚至是通过运行各种策略自动采集的自主运行片段。

但是，如果只是简单粗暴地把这些数据源合并在一起，效果并不会好。

要利用所有这些数据来源来实现组合式泛化，关键在于给提示词（Prompt）增加多样化的上下文：也就是说要用多种多模态的提示结构来训练模型，不仅告诉机器人“做什么”，还要告诉它“怎么做”。

提示词里不仅仅包含任务的自然语言描述，还包含各种其他的标注和模态信息。例如：

提供视觉子目标（Visual Subgoal）：这定义了物体精确的空间布局。
指定期望的片段长度：这规定了任务完成的快慢节奏。

至关重要的是，所有这些信息都能消除行为的歧义，使得我们在训练时可以纳入具有不同策略、不同行为模式和不同熟练程度的多样化数据。

在测试阶段，π0.7 模型不仅能接受标准的语言指令，还能接收关于期望策略的信息，甚至能利用由轻量级世界模型生成的合成视觉子目标。

unsetunset利用多样化条件控制来撬动更多数据unsetunset

不同的提示词模态让 π0.7 能够整合极其广泛的数据源，包括来自不同机器人和控制模式的数据、人类视频，以及自主采集的数据。虽然之前的模型也用过其中一些数据（比如视频），但 π0.7 在一个统一的提示词框架下把它们统合了起来，从而支持：

多样化的语言描述：不仅描述任务本身，还能描述具体的子步骤。
描述任务执行方式的元数据：比如动作的速度和完成的质量。
控制模态标签：指示机器人是应该使用关节控制还是末端执行器控制。
视觉子目标图像：展示当前子步骤结束时应该呈现的样子。这些图像可以在测试时由一个世界模型生成，从而实现视觉上的泛化。

有了这些不同的标注来源，π0.7 就能利用更多类型的数据了。举个例子，那些次优的自主评估数据——这类数据通常因为质量不高，有教坏模型的风险——现在也可以通过标注适当的元数据（比如标记为“较低质量”或“较低速度”）而被纳入训练，变废为宝。

unsetunsetπ0.7：一款可操控的通用模型unsetunset

对于机器人基础模型来说，最棘手的泛化挑战之一就是听懂用户指令去执行一个全新的任务。

π0.7能够跨越不同的机器人、场景和技能，执行各种灵巧操作任务。

并通过结合多样化的语言指令、语言辅导以及视觉子目标，展现出了组合式任务泛化的早期迹象。

重磅！physical intelligence推出π0.7：像搭积木一样，把从不同任务里学到的技能重新组合图3

第一次观察到这种涌现能力，是在让模型去操作各种厨房电器的时候。

pi团队做了一个很有意思的实验。

当让机器人去执行一个新任务——比如用空气炸锅烤红薯时，它会做出合理的尝试。虽然在开始前会有几次错误的尝试（false starts），但它随后能完成部分步骤，只是没法彻底做完：

不过，如果用逐步的语言引导带着它过一遍任务，它的执行效果会好得多。但这做起来比看起来要难。这需要理解那些细颗粒度的指令，并将它们正确地落地：

在多次给机器人提供语言指导后，就可以利用这些指令来微调一个高层策略模型。这样一来，它就能完全自主地生成语言子目标，从而显著提升任务的全自动执行能力——完全不再需要任何额外的人工远程操作了。可以说，机器人已经通过语言指导真正学会了这项任务：

pi团队也很想搞清楚，机器人究竟是在哪儿学会了“空气炸锅”这个概念的。鉴于训练集的规模庞大且种类繁多，想要追踪到具体是哪几次经历让它产生了这种行为非常困难。这些知识很可能源自机器人实操数据与网络级视觉-语言预训练的结合。

经过一番搜寻，找到了两个关键样本：一个是在某家庭环境中采集的，当时机器人正在关闭空气炸锅（指令分别是“把炸篮推入空气炸锅”和“把空气炸锅的篮子放在台面最左侧”）；另一个则是来自开源 DROID 数据集（基于 Franka 机械臂）的数据。

有趣的是，这些样本与实验中移动机器人的实际操作看起来大相径庭。这表明 π0.7 模型具备了泛化和组合行为的能力，能够将红薯装入空气炸锅——这就像大语言模型（LLM）组合它在海量网络数据中见过的不同文本片段一样：

重磅！physical intelligence推出π0.7：像搭积木一样，把从不同任务里学到的技能重新组合图4

unsetunset跨本体迁移unsetunset

π0.7 展现出了目前所见过的、在不同机体间最有效的任务泛化能力。

在训练数据集中，双臂 UR5e 系统是极其稀缺的一类机体。它由两只 UR5e 工业机械臂加上 Robotiq 平行夹爪组成。这台机器人很难进行远程操控：沉重的机械臂惯性很大，而且夹爪的精度也相对有限。

我们让 π0.7 去控制这台机器人叠衣服，尽管我们从未采集过这台机器人叠衣服的数据，但惊讶的是，它竟然能稳定地完成这项任务。

值得注意的是，这台机器人在叠 T 恤时的肢体动作，与当初用来采集数据的那台（体型小得多的）机器人截然不同。

重磅！physical intelligence推出π0.7：像搭积木一样，把从不同任务里学到的技能重新组合图5

在这个任务上，π0.7 的成功率实际上与人类专家遥操作员的“零样本”成功率相当。这些专家正是当初在原机器人上采集训练数据的人，而当他们被要求换到这台双臂 UR5e 系统上执行任务时，表现也就这个水平。要知道，这些遥操作员平均拥有 375 小时的遥操作经验。

unsetunset速度与最优性的条件控制unsetunset

除了广泛的泛化能力，pi团队也希望模型能实现高成功率，并且干活要快。

在最近的工作中，pi推出了 Recap，这是一种利用强化学习来训练策略的算法，专门用于优化鲁棒性和吞吐量。

虽然 Recap 提供了一种有效的策略优化方法，但有了 π0.7，我们不再需要针对每个任务单独训练。将 Recap 训练过程中生成的经验，连同策略元数据一起“蒸馏”进了 π0.7 模型。

结果就是，得到了一个通用的单一模型，它在执行所有 Recap 优化过的任务时，都能保持同样的成功率，而且吞吐量有时甚至更高。

同一个 π0.7 模型，在叠衣服、做浓缩咖啡和折纸盒这些任务上的表现，都能达到甚至超越用 Recap 训练出的最佳专用模型的水平。

重磅！physical intelligence推出π0.7：像搭积木一样，把从不同任务里学到的技能重新组合图6

重磅！physical intelligence推出π0.7：像搭积木一样，把从不同任务里学到的技能重新组合图7

unsetunset灵巧任务的开箱即用性能unsetunset

π0.7 是一个通用模型，这意味着它能够操控各种各样的机器人去完成五花八门的任务。

除了上面讨论的那些用于评估特定性能指标和泛化能力的受控实验外，pi还测试了广泛的任务场景，包括削蔬菜皮、用玻璃清洁剂擦拭玻璃门等等。

unsetunset下一步是什么？unsetunset

π0.7 是一个统一的单体模型，它展现出了涌现式的组合泛化能力，既能听从各种指令和视觉子目标，又具备强大的“开箱即用”性能——哪怕是以前那些需要专门微调模型才能搞定的任务，它也能轻松上手。

像 π0.7 这样强大且可控的模型，让未来解决更复杂的未知任务成为可能。

可以让模型先“构思”出完成任务的各种路径，利用它听从不同提示词的能力把这些想法落地为具体动作，然后再反思结果，进而修正任务计划。

因此，高效的提示词跟随和泛化能力，其意义不仅仅在于让人类能更精准地指定机器人该干什么；更在于它能将现代基础模型的语义推理和问题解决能力进行落地（Grounding），让模型能够将其在语义层面的泛化能力，真正转化为物理世界中的泛化能力。

重磅！physical intelligence推出π0.7：像搭积木一样，把从不同任务里学到的技能重新组合图8

重磅！physical intelligence推出π0.7：像搭积木一样，把从不同任务里学到的技能重新组合图9

END