最新｜近一周值得关注的6篇论文——具身智能核心难题「感知-行动鸿沟」被攻关？

今天是8月25日

各位同仁，周一好！

从公众号起步之初，我们就创立了这个栏目！大概就是讲讲近一周具身智能行业有什么值得关注的动态，讲讲具身圈又发生了什么“大事”，资本市场又开始看好哪家公司了～

因为大家都很忙，没太多时间刷大量的新闻，所以我们来做一周梳理，帮助大家节省点儿时间。

（如果有不全面的地方，欢迎大家补充，以期共同进步。PS：没时间看详细介绍的朋友，【要点速览】可供快速浏览。）

行业资讯、产品动态见今日的第二篇文章！

要点速览

6 篇学术进展

佐治亚理工学院：一种低成本、易于部署的评估框架Switch4EAI，利用运动感知的主机游戏（如Just Dance）来捕捉、重建和迁移游戏中的编舞动作，用于机器人执行试图解决当前在类人机器人和四肢机器人领域缺乏标准化的基准测试的问题。
加州理工学院：一种基于非线性模型预测控制（MPC）的在线轨迹生成方法，并结合基于控制屏障函数（CBF）的几何感知安全约束试图解决机器人在非结构化且动态变化的环境中进行自主导航的问题。
法国国家科学研究中心&日本国立先进工业科学技术研究所：一种可微分可达性图（differentiable reachability map）的新表示方法，用于描述机器人运动学可达性。该表示方法是连续且可微的，可以作为约束直接嵌入到连续优化问题中，从而提高运动规划的效率。
天津大学：将“指向”（pointing）作为统一的、与实体无关的中间表示，定义了四个核心的具身指向能力，以连接高层视觉-语言理解和底层动作基元旨在解决具身智能中的“感知-行动鸿沟”问题。
卡尔加里大学&德国慕尼黑大学：一种结合模型预测路径积分与交叉熵和协方差矩阵自适应方法的采样型模型预测控制策略，称为MPOPI旨在解决腿式机器人在复杂、非结构化环境中实时生成全身运动控制的问题。

慕尼黑工业大学&纽约大学：一种基于蒙特卡洛树搜索与全身轨迹优化的完整规划流程，实现了接触序列和接触点的联合优化旨在解决具有挑战性的环境中的多接触运动规划问题。

学术进展

01 斯佐治亚理工学院：用于机器人执行试图解决当前在类人机器人和四肢机器人领域缺乏标准化的基准测试的问题

本文提出了 Switch4EAI（Switch-for-Embodied-AI），这是一个低成本且易于部署的系统，利用动作感应游戏主机游戏来评估机器人的全身控制策略。

以任天堂 Switch 上的《Just Dance》为例，本文的系统能够捕捉、重建并在机器人上重新演绎游戏中的编舞动作。本文在 Unitree G1 人形机器人上验证了该系统，并基于开源的全身控制器建立了机器人与人类玩家对比的量化基准。

论文中讨论了这些结果，证明了使用商业游戏平台作为物理基础的评估基准是可行的，并为未来具身人工智能的基准测试工作提供了方向。

论文地址：https://arxiv.org/html/2508.13444v1

02 加州理工学院：一种基于非线性模型预测控制（MPC）的在线轨迹生成方法，解决机器人在非结构化且动态变化的环境中进行自主导航的问题。

在非结构化且动态变化的环境中实现自主导航是一项复杂的任务，对现代机器人专家而言仍面临诸多挑战。特别是，足式机器人通常具有可操控的非对称几何结构，在进行安全关键的轨迹规划时必须将这些结构特性纳入考虑。

本文提出了一种预测安全滤波器：一种基于非线性模型预测控制（MPC）的在线轨迹生成算法，该算法结合了基于控制屏障函数（CBF）的几何感知安全约束。关键在于，本文的方法利用泊松安全函数，直接从感知数据中数值合成CBF约束。

此外，进一步拓展了泊松安全函数的理论框架，通过将泊松方程的静态狄利克雷问题重新表述为参数化的移动边界值问题，从而将领域中的时间变化纳入考量。此外，本文还运用闵可夫斯基集合运算，将原始领域提升到一个考虑机器人几何特性的构型空间中

。最后，本文在多种安全关键场景中，将所提出的实时预测安全滤波器应用于人形机器人和四足机器人上。实验结果突出了泊松安全函数的灵活性，以及基于CBF约束的模型预测安全控制器所带来的优势。

论文地址：https://arxiv.org/html/2508.11129v1

03 法国国家科学研究中心：可微分可达性图，用于描述机器人运动学可达性。

为了降低仿人机器人运动生成的计算成本，本文提出了一种新的机器人运动学可达性表示方法：可微分的可达性地图。

该地图是一个定义在任务空间中的标量函数，仅在机器人末端执行器可到达的区域取正值。这种表示方法的一个关键特性是它在任务空间坐标下是连续且可微分的，因此可以直接作为约束用于连续优化问题中，以进行仿人机器人的运动规划。本文介绍了一种方法，通过使用机器人的运动学模型生成的一组末端执行器姿态，利用神经网络或支持向量机等学习模型，来学习这样的可微分可达性地图。

通过将学习到的可达性地图作为约束条件，本文将仿人机器人的运动生成表述为一个连续优化问题。本文验证了所提出的方法能够高效地解决各类运动规划问题，包括脚步规划、多接触运动规划以及仿人机器人的移动操作规划。

论文地址：https://arxiv.org/html/2508.11275v1

04 天津大学：将“指向”（pointing）作为统一的、与实体无关的中间表示，解决具身智能中的“感知-行动鸿沟”问题

具身智能（Embodied AI）中的泛化能力受到“感知到行动鸿沟”（seeing-to-doing gap）的限制，这种限制主要源于数据稀缺性和具身形态的异构性。

为了解决这一问题，本文首次提出以“指指”（pointing）作为一种统一的、与具体具身形式无关的中间表征方式，并定义了四项核心的具身指指能力，这些能力能够将高层次的视觉-语言理解与低层次的动作基本单元连接起来。本文提出了 Embodied-R1，这是一个专为具身推理和指指任务设计的 30 亿参数视觉-语言模型（VLM）。本文利用广泛的具身智能和通用视觉推理数据集作为数据来源，构建了一个大规模数据集 Embodied-Points-200K，该数据集能够支持关键的具身指指能力训练。随后，本文采用两阶段的强化微调（RFT）课程学习策略，并设计了专门的多任务奖励机制来训练 Embodied-R1。

结果表明，该模型在 11 个具身空间与指指基准测试中达到了当前最先进的性能。尤为关键的是，Embodied-R1 展现了强大的零样本泛化能力：在 SIMPLEREnv 中取得了 56.2% 的任务成功率，在 8 项真实世界 XArm 任务中的平均成功率达到 87.5%，且无需任何任务特定的微调，相比强基线模型性能提升了 62%。此外，该模型在面对多种视觉干扰时也表现出高度的鲁棒性。

论文地址：https://arxiv.org/html/2508.13998v1

05 卡尔加里大学：解决腿式机器人在复杂、非结构化环境中实时生成全身运动控制的问题。

腿部机器人具有穿越复杂地形和在杂乱环境中灵活移动的独特能力，因此非常适合应用于复杂的真实世界非结构化场景中。然而，目前这类机器人尚未达到自然界生物系统所具备的水平。

本文研究了一种结合模型预测路径积分（MPPI）与交叉熵（CE）及协方差矩阵自适应（CMA）方法的基于采样的模型预测策略，用于在多种场景下实时生成腿部机器人的全身运动。结果表明，综合MPPI、CE和CMA优势的方法（即模型预测优化路径积分方法，MPOPI）在样本利用效率方面表现更佳，相比传统MPPI算法，在使用更少样本的情况下即可让机器人实现更出色的运动性能。