Science子刊最新idea：注意力机制+RL，实现腿足机器人精确控制，100%障碍穿越成功率

资讯配图

面向通用化足式机器人行走控制

机器人在复杂地形中的自如移动一直是机器人领域的巨大挑战，特别是在那些没有稳定支撑点的地形上，机器人如何精准地规划每一步、保持平稳的行进？

传统基于模型的控制器依赖诸多理想化假设——完美状态估计、完整地图信息、简化动力学模型。但是，现实中，这种高难度的运动却并不像我们想象的那么简单。

苏黎世联邦理工学院机器人系统实验室（RSL）在《Science Robotics》中提出了一种创新的控制框架，通过结合强化学习和多头注意力机制（MHA），让机器人能够“专注”于地形中的关键信息，自主选择最优落脚点。

我们开设此账号，想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外，也想和大家一起见证它到底是泡沫还是又一场热浪？

欢迎关注【深蓝具身智能】👇

资讯配图

MHA引导的精确“落足点”预测

本文的创新之处在于引入了基于多头注意力的地图编码方法。

通过将机器人本体觉感知数据与外部地形数据结合，利用MHA模块，机器人能够根据当前的状态和环境，精确预测未来的支撑点。这一方法的最大亮点在于，它不仅仅依赖于传统的感知数据，还能根据机器人实时的运动状态动态调整对地形的关注，从而提高了机器人对复杂地形的适应性。

资讯配图

▲图1｜该控制器使得足腿式机器人能够在各种具有挑战性的地形上动态行走。高度可解释的逐点地图编码显示了更高的注意力权重，红色越浓表示下一个脚步点的位置©️【深蓝具身智能】编译

接下来，我们将详细解读这一方法的实现过程：

如何通过CNN与MHA的结合来精确预测支撑点？
强化学习如何帮助机器人在复杂环境中进行自我调整？

资讯配图

具体方法与实现

研究框架与控制策略

本文的核心创新是提出了一种结合多头注意力机制（MHA）和强化学习的腿足机器人控制框架，旨在解决机器人在复杂地形中精准导航的问题。

提出背景

传统的控制方法——无论是基于模型的还是学习型的，都有各自的优缺点。

基于模型的方法虽然能提供精确的控制，但往往缺乏应对动态环境变化的灵活性；

而基于学习的方法则在应对不确定性方面有优势，但在精确控制和泛化能力上有所欠缺。

本文方法

为了弥补这些不足，本文提出的控制框架，通过注意力机制结合强化学习，不仅能预测精确的支撑点，还能适应不同地形的变化。

框架的核心部分是一个由CNN和MHA组成的双层网络结构——

CNN负责从机器人所看到的地形中提取局部特征；

而MHA模块则通过“关注”最关键的特征来帮助机器人做出精准的运动决策。MHA是一种能使模型动态聚焦关键输入数据的技术，使得机器人能够根据当前的本体觉感知数据，调整对不同地形的关注度，进而有效预测未来的支撑点。

资讯配图

▲图2｜全文方法总览©️【深蓝具身智能】编译

这种动态关注的能力，使得机器人在面对不同类型地形时，能够更灵活地调整步伐，保证行走的稳定性和精度。

多头注意力机制（MHA）

说到MHA，我们不妨先简单解释一下它是什么。

MHA是一种深度学习技术，能够在输入信息中找到最重要的部分，并通过多个“头”来处理这些信息。每个头都能从不同的角度来看待数据，然后把这些信息整合起来，形成更为丰富的表征。在腿足机器人控制中，MHA的作用就是让机器人能够“专注”于那些最重要的地形特征，从而提高导航的精确度。

例如，假设机器人在一个崎岖的地形中行走，MHA可以根据当前的状态（如机器人的速度、角度等），动态调整对地形的关注点。它会将更多的注意力集中在那些适合机器人行走的支撑点上，而对其他不重要的区域则给予较少的关注。这个过程完全是通过机器人的本体觉感知数据来引导的，从而确保机器人能够在复杂地形中稳定地行走。

资讯配图

▲图3｜注意力可视化。该方法通过将每个扫描的注意力权重与高度扫描进行可视化，其中更强的红色表示更高的注意力。该图表示对第一阶段控制器在单一基础地形上的注意力权重，涵盖前进、侧向和转向速度指令。©️【深蓝具身智能】编译

CNN与MHA的结合

为了让MHA能够真正发挥作用，文章首先通过卷积神经网络（CNN）提取地形的局部特征。这些局部特征包括地面各个点的高度值（z值），是机器人在行走过程中非常重要的参考信息。

CNN通过两层卷积操作，提取每个地形点周围的局部特征，然后将这些特征传递给MHA模块。MHA模块利用这些局部特征，结合机器人当前的本体觉感知数据，生成最终的地图编码。

简单来说，CNN负责从地形图中“扫描”出有用的信息，而MHA则帮助机器人在这些信息中找出最重要的部分，像是一个指挥官，告诉机器人下一步应该把注意力集中在哪里。

这样的结合使得机器人不仅能够处理静态的地形数据，还能根据自己的状态灵活调整，适应不同的环境。

两阶段训练流程

本文还设计了一个两阶段的训练流程，来帮助机器人更好地应对不同的地形挑战。

在第一阶段，机器人在理想的环境下进行训练，获得精准的感知数据并学习基本的运动技能。

这一阶段的训练目标是让机器人熟悉如何在简单地形中行走，比如平坦的地面或简单的坡度。

资讯配图

▲图4｜在训练过程中机器人的地形从简单的平地，楼梯逐步过渡到有挑战性的梅花桩，碎石路下坡等©️【深蓝具身智能】编译

而到了第二阶段，训练变得更具挑战性。此时，机器人开始面对更加复杂的地形，其中包括感知噪声和不确定性的扰动，模拟了真实世界中的各种环境变化。

这一阶段的目的是让机器人不仅能够应对理想的环境，还能在面对传感器误差、环境变化等实际问题时，依然能够稳定、高效地行走。

通过这样的两阶段训练，机器人学会了如何在理想环境中精确行走，并且具备了在复杂、真实环境下应对不确定性的能力。训练过程中，机器人逐渐适应了从理想环境到现实环境的过渡，确保了控制器的强大泛化能力。

强化学习与奖励机制

为了引导机器人进行有效的学习，本文设计了一个复杂的奖励机制。强化学习中，奖励信号是训练的关键，它决定了机器人会朝着哪个方向优化自己的行为。

具体来说，本文的奖励分为三大类：任务奖励、正则化奖励和风格奖励。

任务奖励：主要确保机器人能够完成预定的任务，比如准确跟随命令保持运动，并避免在复杂地形上失败。
正则化奖励：用于避免机器人的运动过于激烈，避免出现过度扭矩或关节过度伸展等情况。
风格奖励：鼓励机器人做出更自然的动作，避免脚步滑动、倾斜等不自然的步态。

这些奖励的设计不仅帮助机器人在训练中形成合适的运动习惯，还让机器人在实际应用中能够做出更平滑、自然的动作。

训练环境与数据增强

为了确保控制器在复杂环境中具有强大的鲁棒性，论文采用了广泛的领域随机化技术。

通过向感知数据中加入噪声，模拟真实环境中的不确定性，训练中的扰动和不完美感知得以反映在实际训练中。这不仅增强了机器人的适应能力，也确保了训练结果的现实意义。

实验

在实验中，作者测试了所提出的控制器在GR-1和ANYmal-D两款机器人上的表现。通过模拟和真实环境中的广泛测试，验证了该方法在不同地形下的适应性和精准度，尤其是在训练阶段未曾遇见的全新地形上。

训练与测试：广泛的地形适应能力

实验首先展示了控制器在GR-1机器人上的表现，尽管该控制器仅在基础地形上训练，但它在未见过的地形上也展现了优秀的泛化能力。

新地形适应性的实验结果：

训练地形：包括栅格石、托盘、梁等（如下图A）。

测试地形：包括五边形石、单柱石、狭窄托盘、连续间隙等（如下图B所示）。

资讯配图

▲图5｜机器人多地形行走适应力实验图示©️【深蓝具身智能】编译

控制器成功适应了这些新地形，验证了其在训练外地形上的广泛适应性。

同样，ANYmal-D控制器也表现出了类似的泛化能力。尽管其运动学与GR-1不同，训练时的地形选择有所调整，但它在面对新地形时依然表现优秀。

未知地形适应性的实验结果：

训练地形：基础地形（如下图E所示）。

测试地形：如下图D所示的未知地形。

资讯配图

▲图6｜ANYmal-D在不同地形行走可视化©️【深蓝具身智能】编译

该控制器能够有效适应新地形，展示了所提方法的跨机器人适应能力。

强化现实世界的适应性：扰动与不确定性的考验

为了进一步提高控制器的精确性与现实世界适应性，作者在第二阶段对控制器进行了微调，加入了更多复杂的地形和扰动因素，模拟了现实环境中的不确定性。

实验结果：

实验环境：挑战性的障碍跑酷赛道，包含干扰和不确定性。

资讯配图

▲图7｜通过对控制器的微调，加入更多地形和扰动，最终机器人能够在真实世界中健步如飞的应对各种有挑战性的地形©️【深蓝具身智能】编译

GR-1和ANYmal-D在这些复杂地形上表现出100%的成功率，证明了该控制器在现实环境中的稳定性和适应能力。

敏捷性与恢复反应：全身协调带来的灵活性

控制器在真实机器人上的敏捷性和恢复能力也得到了验证。通过全身运动控制，ANYmal-D和GR-1能够有效使用膝关节和手臂提高灵活性，在不稳定地形中快速恢复。

实验结果：

敏捷性：GR-1和ANYmal-D能够在不同地形上实现敏捷的运动，使用膝关节和手臂提升灵活性（如下图A和图C所示）。

恢复能力：在滑倒或支撑不稳定时，机器人能够主动进行恢复，保持行进稳定（如下图B和图E所示）。

资讯配图

▲图8｜通过全身协调实现的灵活性和恢复反射。(A) ANYmal-D使用膝盖爬上大岩石，同时旋转躯干。(B) ANYmal-D通过膝部支撑从不稳定的碎石中恢复，克服了因滑动而导致的脚部陷入问题。(C) GR-1通过一排19厘米宽的不平整踏脚石，利用自然摆臂帮助灵活运动。(D) GR-1在一个不稳定的19厘米宽平衡梁上稳定自身。(E) GR-1在通过一排不平整踏脚石时发生滑动，并迅速通过向前踏步做出反应。(F) GR-1在穿越一排不平整踏脚石时由于左侧偏向速度指令导致遇到不合适的落脚点。由于右脚落地后左脚没有足够的空间着陆，GR-1在空中交换了支撑脚，成功用右脚踩到下一个石块形©️【深蓝具身智能】编译

这些自我恢复行为是传统基于模型的控制方法难以实现的，因为它们通常依赖于固定的接触状态机和人工规则。通过强化学习，控制器能够自主学习并执行复杂的恢复动作，从而提升机器人在复杂地形中的稳定性。

控制精度与速度追踪：不同速度下的灵活应对

机器人不仅能够精确预测支撑点，还能灵活地跟踪不同速度命令，在复杂地形上表现出高度的适应性。

实验结果：

ANYmal-D：成功应对了稀疏地形中可移动支撑物，展示了全方位的运动适应能力（如下图A所示）。

GR-1：能够在不平整的步伐、摇晃的平衡梁等地形上调整步态和动作，展现出其多样化的运动能力（如下图B和下图C所示）。

资讯配图

▲图9｜多功能的速度跟踪。本文提出的学习型控制器在ANYmal-D和GR-1上展示了多功能的速度跟踪能力。(A) ANYmal-D在碎石上操控，克服了具有可移动支撑的稀疏地形，展示了全向的灵活性。(B) 当速度指令从0.7 m/s变为1.5 m/s时，GR-1在不稳定的平衡梁上加速，迈出了更长的步伐。(C) 在1.5 m/s的前进速度指令下，GR-1每踩一个踏脚石迈出一步。(D) 在0.7 m/s的前进速度指令下，GR-1每个踏脚石上踩两步©️【深蓝具身智能】编译

这种速度适应能力极大地扩展了机器人在复杂环境和狭小空间中的操作范围。