人形机器人如何破解非结构化环境下行走难题？

原文发表于《科技导报》2025年第20期《非结构化环境下人形机器人行走规划与控制》

人形机器人因具有人体相似的形态与运动能力，被广泛认为是未来服务、救援与工业应用的潜在核心装备，但在非结构化环境中实现稳定可靠的行走仍具有显著挑战。《科技导报》邀请香港理工大学航空及民航工程学系曹屹峰、清华大学智能绿色车辆与交通全国重点实验室曹东璞等撰文，文章综述了近年来在人形机器人行走规划与控制方面的研究进展，系统梳理了典型方法的核心思想与实现框架，讨论了提升环境适应性与动态稳定性的关键技术瓶颈，展望了未来在多模态感知融合、学习与控制协同优化、全身运动技能学习及安全性保障等方面的发展趋势，并对相关技术的标准化与大规模应用提出了建议。

人形机器人作为最接近人类形态与运动方式的自主系统，一直被认为是未来人工智能与机器人技术的重要方向。然而，要实现人形机器人在非结构化环境下的稳定行走依然面临重大挑战。人行机器人需要解决的问题具体可以分为：感知、定位、规划与控制4个子任务（图1）。

图1 人行机器人行走的子任务拆解

总体而言，人形机器人行走的规划与控制领域的研究大致经历了3个阶段：

（1）早期阶段。以简化动力学为核心，关注基本的平衡保持与周期步态生成。

（2）发展阶段。引入优化与预测控制，逐步解决非平地行走、扰动恢复等问题。

（3）新兴阶段。借助深度学习与强化学习，推动感知、规划与控制的融合，实现端到端或混合式框架。

我们的研究将围绕规划方法、控制方法以及将感知与规划或感知与控制等不同模块进行深度结合的混合式及感知规划与控制一体化的端到端算法3个方面，梳理近年来人形机器人在非结构化环境下行走的研究进展，并总结存在的瓶颈与未来的发展方向。

1 行走规划算法研究进展

在人形机器人研究中，行走规划承担着连接高层任务需求与底层控制执行的桥梁作用。随着研究的深入，行走规划逐渐形成了自上而下的多层次框架：全局路径规划负责大范围的导航决策，落足点与步态序列规划确保与环境交互的可行性，而轨迹优化则决定了具体的动态表现，这些规划方法之间的关系如图2所示。

图2 非结构化环境下人形机器人行走规划方法的分类

1.1 全局及局部步态规划

在人形机器人面临的复杂环境中，首先需要确定一条从起点到目标点的可行路径。落足点规划决定了机器人如何与环境发生接触，是确保运动稳定性与安全性的核心。

1）基于几何求解的规划方法。

早期研究多借鉴移动机器人领域的经典方法，如基于栅格的A*算法，以及基于采样的快速随机树（RRT）与其改进型RRT*。早期研究采用几何规则来选择落足点，例如确保下一步落脚点位于支撑多边形内并满足一定的步幅约束。这类方法简单高效，但往往对环境复杂性仍然考虑不足。同时，这些方法能够在二维或三维地图上高效搜索路径，适合用于静态环境中的全局导航。

2）考虑动力学约束的规划方法。

单纯的几何路径并不能保证人形机器人在实际执行时的可行性。其原因在于：路径可能要求机器人采取过于极端的步态，超出动力学极限。近年来，部分研究尝试将动力学约束直接引入路径搜索过程，在A*或RRT的启发式函数中加入“步态可行性”或“能量消耗”来改进这类方法。这类方法进一步结合动力学约束与能耗评估，实现了更接近实际可执行的落足点序列。同时这类方法在路径生成阶段就考虑了机器人身体特性，从而减少了后续落足点规划的冲突。

3）分层式步态规划。

由于环境往往存在不确定性和动态变化，离线生成的路径无法长期有效。为解决这一问题，研究人员提出了分层路径规划的思路：全局层负责粗粒度的路径生成，而局部层在执行过程中进行实时修正。这种方式在保持全局目标一致性的同时，提升了对未知环境的适应性。分层式结构保证了规划的实时性及当前规划的可行性。

4）学习辅助的步态规划。

近年来，深度学习被引入落足点规划。这类方法的优势在于能够学习复杂地形特征，但也存在泛化能力和训练样本依赖的问题。

总体而言，落足点规划已从“基于几何的快速方案”发展到“优化与学习结合的高精度方案”。在保证稳定性的同时，更加强调环境适应性与实时性。

1.2 运动轨迹规划

落足点序列确定后，机器人需要生成符合动力学约束的运动轨迹，为下层控制器提供参考轨迹，通常生成的参考轨迹为质心参考轨迹及足部轨迹。生成的轨迹需要满足实时性、动力学约束等条件。

1）基于简化模型的轨迹优化。

早期的轨迹优化方法致力于使用简化动力学模型生成特定参数的参考轨迹，最常见的框架是基于零力矩点（ZMP）与线性倒立摆模型（LIPM）的轨迹生成方法，如通过控制质心在支撑多边形内的运动轨迹，机器人能够保持稳定的周期步态。一些研究旨在选取更有效参数的轨迹，或使用更精确的简化模型。

2）轨迹修正与在线调整。

部分研究在轨迹执行过程中动态修正，例如实时调整摆动腿的轨迹，以避免与障碍物碰撞；或通过时间重参数化改变步态节奏，从而提升对突发扰动的容忍度。相比于对自身状态以及外部扰动进行建模，Nguyen等使用状态库来应对外部不确定环境，采用具有快速检索和插值的周期性步态库，使规划者能够动态响应不可预测的步进表面。这类方法通过对轨迹的动态调整，提升了与环境的动态交互能力与行走稳定性。

3）数据驱动的轨迹规划。

在复杂环境下，单纯的模型可能无法准确描述系统动力学。为此，研究者利用数据驱动方法进行补偿。众多研究者利用数据驱动的方法来实时修正外部扰动下的质心或摆腿轨迹。除了应对外部干扰之外，也有研究者使用数据驱动的方法来应对轨迹规划时的地形不确定性。

轨迹优化不仅保证了运动的平稳与稳定，还为机器人提供了面对环境不确定性时的快速恢复能力。未来的研究可能会更多关注如何在保持实时性的前提下，结合高维感知信息生成更加智能的轨迹。

1.3 小结

行走规划方法正从传统的几何搜索逐步发展为兼顾动力学约束与环境适应性的多层次框架。全局路径规划为机器人提供了整体方向，落足点序列保证了局部可行性，而轨迹优化则在执行层面实现了动态稳定性。随着深度学习和优化技术的结合，未来的人形机器人有望在未知、复杂甚至动态环境中实现更自然、更可靠的行走能力。

2 行走控制算法研究进展

行走规划与行走控制一般为上下层的关系，根据行走规划提供的参考运动轨迹，控制方法决定了具体动作实施。随着技术发展，控制方法经历了从基于简化模型的平衡控制，到优化驱动的全身控制（WBC），再到学习驱动的自适应与混合控制的演进（图3）。

图3 非结构化环境下人形机器人行走控制方法的分类

2.1 基于简化模型的行走控制

最经典的行走控制方法选择将机器人的多刚体动力学模型简化为一个简化模型如线性倒立摆模型（LIPM）对机器人进行控制。然而，LIPM假设支撑脚与地面始终完全接触，忽略了踝关节与上身运动的影响。为此，研究人员引入了多种扩展。例如，基于Pratt等提出的捕获点（CP）理论，对现有的基于简化模型的控制方法进行拓展。

除去适应外力扰动，这一方法也被用于适应复杂地形。除去引入捕获点这一概念来增强行走控制的稳定性，还有一部分研究人员尝试对简化模型进行拓展，以提升其在非结构化环境下的适应能力。相比于对简化模型进行拓展，也有研究人员选择对简化模型进行参数优化。与引入捕获点概念类似，也有研究者将质心动量纳入控制变量，以更真实地描述机器人整体动力学。

简化模型方法在计算复杂度与控制稳定性之间取得了一定平衡，使人形机器人能够完成较为复杂的基本行走任务，并在早期研究中发挥了重要作用。然而，这类方法也存在显著局限：

首先，它们通常依赖于低维近似模型，难以全面刻画高自由度人形机器人全身的动力学耦合关系；
其次，当机器人处于强扰动或非结构化环境时，基于简化模型的假设往往失效，导致系统稳定性受限；
最后，简化模型控制无法有效利用机器人冗余的关节自由度，从而难以实现行走与操作等多任务的协同执行。

2.2 全身运动控制

全身控制的核心思想是在完整动力学模型的框架下，同时协调多个任务目标，例如维持质心平衡、实现步态跟踪以及完成上肢操作等。与依赖简化模型的方法不同，WBC强调通过引入机器人全身的动力学约束，以优化求解的方式在不同任务之间实时分配控制输入，从而在确保物理可行性的同时最大化任务完成度。

现代WBC通常将控制问题表述为一个约束优化问题，其中任务目标包括保持质心稳定、足部轨迹跟踪以及上肢姿态控制等；约束条件涵盖关节力矩范围、接触力摩擦锥以及完整的动力学方程；而在具体的数值求解方面，二次规划（QP）成为最常见的工具。该方法通过在实时优化过程中平衡不同任务的优先级，使人形机器人能够在复杂环境下展现出多任务协同与动态稳定性的能力。

在全身控制中，任务间往往存在冲突。例如，保持平衡与完成操作任务可能无法同时满足。为此，研究者提出了分层全身控制（HWBC），将不同控制目标进行分层式叠加，通过优先级机制保证关键任务优先执行。除了优化踝关节驱动扭矩，也有研究尝试优化接触力轨迹或质心轨迹。

尽管WBC在实现多任务协调和动力学一致性方面展现出显著优势，但在实际应用中仍面临诸多挑战。

首先，WBC需要在实时条件下求解高维的优化问题，这对计算资源提出了极高的要求，限制了其在嵌入式平台上的部署。
其次，控制框架通常依赖精确的动力学模型，而在真实机器人中，不可避免地存在模型与实际执行器之间的偏差，这会导致控制性能下降。
最后，在高度动态的非结构化环境中，如何在保持稳定性的同时兼顾复杂任务执行，仍是一个难以完全解决的问题。

2.3 强化学习控制

近年来，深度强化学习（DRL）在机器人控制领域展现出巨大的发展潜力。DRL借助深度神经网络的强大表示能力，通过与环境的反复交互直接学习状态与动作的映射关系，从而获得控制策略。更为重要的是，DRL在面对复杂、非线性和高度不确定的动力学系统时表现出较强的适应性与鲁棒性。因此，DRL的引入不仅为人形机器人突破传统控制框架的局限提供了新的思路，也为其在非结构化环境中的稳定行走与任务执行开辟了新的研究方向。

除去利用强化学习学习简单的行走控制策略，也有研究者尝试利用强化学习学习特殊或者多样化的行走技能。除了使用纯粹的深度强化学习构建控制策略，也有研究者探索尝试使用学习的方法增强优化控制算法，即将使用不同方法的模块进行结合的混合式框架。

这类方法也面临诸多限制：

其一，训练往往需要大量样本，尤其在真实机器人上收集数据成本极高；
其二，仿真与现实之间存在不可忽视的差距，导致策略在实际部署时泛化能力不足；
其三，学习策略普遍缺乏可解释性和严格的安全保证，难以直接应用于高风险任务场景。

2.4 小结

总体而言，人形机器人控制方法的发展大致经历了3个重要阶段。

首先，基于简化模型的方法，如线性倒立摆模型与零力矩点控制，为实现基本的动态平衡和周期步态生成奠定了理论与技术基础。
其次，随着优化技术与计算能力的提升，全身控制逐渐成为主流。

然而，全身控制的实时性要求与对模型精度的依赖仍然限制了其在非结构化环境中的鲁棒性。近年来，学习驱动与混合控制方法开始兴起，深度强化学习凭借其强大的自适应能力，为机器人在未知环境中的稳健运动提供了新的可能。与此同时，模型驱动与学习驱动的结合成为新的研究方向，既能利用模型方法的可解释性与安全性，又能发挥学习方法在复杂场景下的灵活性与泛化能力。

3 协同式架构

近年来，相比于单独设计，调整规划或控制等模块，有研究者开始尝试设计整体式框架，通过将不同模块紧密融合实现整体优化。趋势主要体现在3方面：

其一，将感知、规划与控制整合到统一的框架中；
其二，引入强化学习控制甚至感知规划或感知规划控制一体化的端到端策略，突破传统模块化架构的局限；
其三，强调硬件平台与算法的协同设计。

3.1 感知—控制协同架构的发展

传统的人形机器人行走系统大多采用分层架构：感知模块生成环境模型，规划模块输出路径与步态，控制模块再跟踪执行。然而这种分离式架构存在信息传递延迟、误差累积以及模块间不一致的问题。为解决这一瓶颈，研究者提出一体化框架，将感知、规划与控制等模块之间进行一定有机结合。

3.2 感知—规划—控制协同架构的发展

除了将部分模块进行紧密结合，近年也有研究者尝试将感知、规划与控制结合作为一体式的控制框架，使仅通过单一模块，让机器人可以在环境中自主到达指定的目标地点，形成真正的“端到端”架构。

3.3 小结

端到端方法在机器人行走中的应用仍处于不断演进阶段，其发展趋势主要体现在3个方面。

首先，模型与学习的深度融合将成为主流方向：研究者尝试在端到端框架中引入可微分物理约束或优化层，使得控制器既具备端到端学习的灵活性，又保持物理一致性与稳定性。
其次，多模态感知的整合将进一步提升端到端架构的适应性，视觉、力觉和惯性传感等信息的融合有助于机器人在更加复杂和动态的环境中实现鲁棒控制。
最后，仿真到现实的迁移仍是亟需解决的关键问题，通过域自适应、对抗训练和真实机器人上的小样本微调，有望缩小仿真与现实之间的差距。

4 未来展望

未来的发展趋势将不再局限于单一算法的改进，而是更加强调跨学科的深度融合，尤其是与人工智能、硬件平台和标准体系的结合，以下4个方向可能成为未来研究的重点。

4.1 规划控制与大语言模型及视觉语言模型的深度结合

随着大语言模型（LLM）和视觉语言模型（VLM）的快速演进，人形机器人在任务理解与语义感知方面将迎来新突破。LLM与VLM的引入有望让机器人具备更接近人类的语义推理与环境理解能力。这种能力不仅能够提升机器人在复杂任务场景中的适应性，还能够显著改善人机交互体验，使非专业用户也能通过自然语言与机器人进行高效沟通。未来，如何将基于语义理解的规划和控制与传统动力学约束有机结合，将成为实现智能化行走控制的重要研究方向。

4.2 硬件—算法的协同化发展

人形机器人在实际应用中往往受到算力、能耗和执行器性能的制约，因此，未来的研究必须更加注重硬件与算法的协同优化。

一方面，执行器与传感器技术的进步将为复杂算法的部署提供坚实硬件基础。
另一方面，算法设计也需要更加贴合硬件特性，从而延长机器人的续航并提升整体能效。

此外，硬件与算法的协同发展不仅体现在计算和能耗的平衡，还包括机器人结构布局与控制策略的共同优化。这种双向促进的模式有望成为未来人形机器人设计与控制的核心理念。

4.3 机器人机构与传感器的发展

除了算法与硬件协同，机器人本体结构与传感系统的革新同样是提升行走能力的关键。未来，轻量化与高强度材料的应用将显著降低机器人能耗并提升耐久性，而柔性关节与顺应性机构的引入则有助于机器人在非结构化地形中更好地吸收冲击、维持稳定。这些机构与传感器的持续演进将不仅提升机器人在单一任务中的表现，还将拓宽其在多任务与复杂环境下的适用性。

4.4 通用数据集与评价体系的发展

未来，建立开放且标准化的数据集与评价体系显得尤为重要。这类数据集应覆盖多样化的行走场景，包括不规则地形、外部扰动、障碍物分布以及多任务操作需求；而评价体系则应在稳定性、能效、任务完成率和安全性等多维度上进行全面考量。统一的数据与评测标准不仅能够促进学术界在算法迭代中的公平比较，也有助于推动工业界快速采纳先进方法，实现从实验室到应用的平滑过渡。

5 结论

人形机器人行走研究在过去几十年取得了显著进展，从早期的简化模型控制到近年的全身优化与学习驱动方法，技术体系逐渐形成了较为完整的框架。以“非结构化环境下的人形机器人行走规划与控制”为核心视角，我们综述了规划方法、控制方法以及2者的融合与发展趋势，并在此基础上进行总结与展望。在技术层面，行走规划与控制方法不断演进，当前人形机器人行走研究已经形成了从规划、控制到融合的完整方法体系，并正沿着高鲁棒性、自适应与实用化的方向快速发展。

展望未来，人形机器人研究将不仅聚焦于单一的算法或硬件突破，而是朝着跨领域、跨层次的综合发展方向迈进。通过与大模型的结合、硬件—算法协同优化、机构与传感器的演进，以及统一标准体系的建立，人形机器人有望在非结构化环境中实现更高水平的自主性与智能化，真正走向实用化与大规模应用。

本文作者：曹屹峰、何俊鹏、李炳贤、范丽丽、田永林、文伟松、曹东璞

作者简介：曹屹峰，香港理工大学航空及民航工程学系，博士研究生，研究方向为人形机器人、机器人控制、自动驾驶；曹东璞（通信作者），清华大学智能绿色车辆与交通全国重点实验室，教授，研究方向为驾驶员认知、网联自动驾驶。

文章来源：曹屹峰, 何俊鹏, 李炳贤, 等. 非结构化环境下人形机器人行走规划与控制[J]. 科技导报, 2025, 43(20): 93−104.