《Science Robotics》封面：DeepMind发布RoboBallet，重新定义多机器人协同规划

资讯配图

在现代工业制造中，无论是汽车焊接、电子产品装配、飞机喷漆还是建筑构件安装，多机器人系统正逐渐成为提升生产效率的关键技术。

通过在同一工作单元中部署多个机械臂，企业可以在不显著增加成本和空间的前提下，大幅缩短任务执行时间、提高整体产能。然而，尽管多机器人系统在理论上潜力巨大，其实际部署却面临一个根本性的挑战：如何在共享且充满障碍物的环境中，高效、安全地协调多个机器人完成多项任务？

▍多机器人协调的“三座大山”

多机器人协同需同时解决三个核心子问题，每个问题单独求解已属“计算硬骨头”，而三者的耦合关系更让传统方法难以突破：

运动规划（Motion Planning）：需为每个机器人规划“无碰撞路径”，确保末端执行器精准抵达目标位置。传统基于采样的算法（如 RRT）在低维度场景中表现尚可，但当机器人数量超过 4 个、障碍物复杂度提升时，计算时间呈 “指数级增长”。

任务调度（Scheduling）：

决定任务执行顺序，类似经典的“旅行商问题（TSP）”，属于 PSPACE 完全问题（计算复杂度随任务量呈指数上升）。即使采用近似解法，也需预设大量规则，难以适配动态场景。

任务分配（Assignment）：则需决定哪个机器人执行哪个任务，但每个任务的“成本”并不是独立的，而是依赖于其他任务的分配和调度结果。

更棘手的是，三个子问题存在“牵一发而动全身” 的耦合关系：任务分配决定 “谁做什么”→ 直接影响调度阶段 “先做什么” 的顺序→ 调度顺序改变机器人的运动路径需求→ 路径耗时又反过来修正任务分配的合理性。

传统方案通常将三者“拆分迭代求解”：先人工分配任务，再规划调度顺序，最后计算运动路径。这种模式不仅依赖数百甚至数千小时的人工经验，还常为了计算可行性牺牲了解决方案的质量和完整性。

▍RoboBallet：一种基于神经网络与强化学习的新范式

据探索前沿科技边界，传递前沿科技成果的X-robot投稿，为了应对这一挑战，来自伦敦大学学院/谷歌DeepMind的工程师Matthew Lai及其研究团队提出了一种名为RoboBallet的新型框架，它结合了图神经网络（GNN）和强化学习（RL），旨在自动化地解决多机器人的任务分配、调度和运动规划问题。该研究成果以“RoboBallet: Planning for multirobot reaching with graph neural networks and reinforcement learning”问题发表在国际顶级期刊《Science Robotics》上。

RoboBallet的核心创新在于其场景的图表示和基于GNN的策略网络。具体而言，RoboBallet将整个协同场景抽象为 “动态图”，其中：

节点（Nodes）：表示每个机器人个体，其特征包含位置、速度、目标状态等。

边（Edges）：表示机器人之间的交互关系，通常根据空间邻近性定义，例如相距在一定阈值内的两个机器人视为互相关联。

GNN能够高效处理这种结构化信息。无论图中增加了多少任务或障碍物，GNN的核心处理逻辑是不变的，它学会了“如何理解一对元素之间的关系”。这种“关系归纳偏差”使得模型具备极强的泛化能力，能够轻松应对在训练中从未见过的障碍物布局、机器人位置和任务分布。

在强化学习框架设计方面，RoboBallet采微调TD3（Twin-Delayed Deep Deterministic Policy Gradient）算法来训练策略网络。使模型能够生成多机械臂轨迹，同时解决任务分配、调度和运动规划等子问题，使得昂贵的在线计算转移到了离线训练阶段。

团队还设计了奖励机制函数，其包含两个主要组成部分：任务完成奖励和碰撞惩罚。

任务完成奖励基于已解决任务比例的变化，而碰撞惩罚则对可能导致碰撞的动作施加负奖励。这种设计鼓励智能体既高效完成任务，又避免危险的碰撞情况。此外，研究团队还采用了HER技术，通过在失败回合中重新标记目标来生成额外的训练数据，从而提供更丰富的学习信号。

接着研究团队在程序化生成的随机环境中对模型进行训练。每一轮训练开始时，系统会随机生成机器人的位置、长方体障碍物的布局和任务目标位姿。通过数百万次这样的随机环境交互，模型逐渐学会如何协调多个机器人高效、无碰撞地完成所有任务。

在计算效率方面，RoboBallet表现更为突出：在NVIDIA A100 GPU上，即使是8个机器人、40个任务、30个障碍物的最大配置，每个规划步骤仅需约0.3毫秒；即使是在CPU上运行，也能实现3倍于实时的规划速度。这种高效性使得RoboBallet可用于实时重新规划、动态响应环境变化等需要快速决策的场景。

▍实验结果证明可扩展性、通用性与实用性

为了系统评估RoboBallet的扩展性与泛化性能，研究团队设计了一套全面的实验框架。在训练过程中，每个回合均使用随机生成的环境，包括动态分布的机器人初始位姿、障碍物布局以及任务目标。

机器人被随机放置在一条长度为1.6米的虚拟轨道周围，并排除了初始即发生碰撞的配置。障碍物由30个立方体构成，其位置与朝向均随机生成，且确保不与机器人初始状态重叠。任务目标点通过在障碍物表面均匀采样生成，并附加一个微小的法向偏移，使其略微脱离表面。

评估主要围绕两个关键指标展开：一是整体轨迹执行时间，即从开始至所有任务完成的总耗时；二是轨迹质量，通过与基线方法在最优性方面的对比进行衡量。鉴于现有方法难以应对大规模场景，团队在缩减规模的问题设置（包含4个机器人和20个任务）中进行了对比实验，比较对象为基于RRT-Connect和穷举调度的基准算法。

实验结果表明，尽管基于强化学习的方法并不具备理论上的完备性，但其所得轨迹在成本方面与基线方法相当，甚至在多数情况下表现更优，而基线方法则需要消耗数量级更多的计算资源，且依赖较强的简化假设。

RoboBallet在训练和推理阶段均展现出良好的可扩展性。训练所需步数并未随机器人或任务数量的增加呈指数增长；推理时间则与机器人数量的平方、任务及障碍物的数量成线性关系，在实际应用中具备可行性。

可扩展性与泛化性的训练曲线

实验还发现，增加机器人数量能够显著提高任务执行效率。例如在优化布局的条件下，机器人从4台增至8台，平均执行时间从7.5秒减少到4.5秒，降幅达40%。

工作单元的布局优化

这也是RoboBallet架构的核心优势，能够将从小规模训练中学到的协作模式推广到更大规模场景。

▍关于X-robot

X-robot是中关村机器人产业创新中心与机器人大讲堂联手打造的权威性信息发布品牌专栏，集前沿探索、产业研究、知识普及于一体，致力于积极推动新质生产力的生成与发展，助力我国乃至全球机器人行业的蓬勃繁荣。X-robot立足国际化视野，通过全方位、多角度的挖掘与追踪，生动展现机器人前沿技术与尖端成果，为学术界、产业界及公众提供一个洞见未来、共享科技的重要窗口。

论文链接：https://www.science.org/doi/10.1126/scirobotics.ads1204

如需咨询企业合作事宜，欢迎联系机器人大讲堂-客服(19560423866，手机与微信同号)进行对接。

----------------END-------------------