摘要
Abstract
加州大学伯克利分校的研究人员开发了HITTER,一个通过分层规划和学习框架打乒乓球的仿人机器人。该系统在Unitree G1机器人上实现了对抛掷球92.3%的成功回击率,并与人类对手持续进行了长达106拍的连续对打,展示了敏捷的全身控制能力和亚秒级的反应能力。
项目地址:
https://www.alphaxiv.org/zh/overview/2508.21043v1
HITTER 引入了一个分层框架,使人形机器人能够自主打乒乓球。该系统将基于模型的轨迹规划器与基于强化学习的全身控制器相结合,解决了快速球轨迹预测和敏捷协调全身运动生成双重挑战。
研究表明,通用型宇树G1人形机器人可以实现具有竞争力的乒乓球性能,包括与人类对手进行长时间的对打,以及两台人形机器人之间的自主比赛。

这项工作通过解决需要亚秒级反应时间、多关节精确协调和持续平衡恢复的动态操作任务,解决了当前人形机器人技术的根本局限性。乒乓球由于其极高的时间要求(球速超过5米/秒,需要在数百毫秒内完成感知、预测和行动),同时需要敏捷的全身协调(包括快速手臂摆动、腰部旋转和快速步进动作),因此是一个理想的基准。
技术架构
HITTER 系统采用分层分解,将高级轨迹规划与低级全身控制执行分离。这种架构利用了基于模型和基于学习方法的互补优势,同时减轻了它们各自的局限性。
感知系统使用九个以360赫兹运行的OptiTrack摄像机,以毫米级精度追踪球的3D位置。球上覆盖有反光胶带以增强追踪可靠性。系统同时追踪机器人的基座位置和方向,为规划和控制组件提供必要的状态信息。
基于模型的规划器使用混合动力学模型处理球的轨迹预测和击球规划。球速估算采用二阶多项式对最近的31个位置测量值进行最小二乘拟合,每次弹跳后清空缓冲区以保持精度。轨迹预测结合了具有空气动力学阻力的连续时间飞行动力学和用于桌面弹跳的离散时间冲击动力学:

其中 k 代表阻力系数,g 是重力加速度。冲击动力学使用恢复矩阵C=diag(Ch,Ch,−Cv),具有独立的水平和垂直系数。
球轨迹预测与击球规划
规划器通过显式时间积分计算未来的球状态,并确定最佳球拍位置和速度以实现成功回击。一个位于x=−1.37米的虚拟击球平面定义了拦截区域,从而可以计算击球时间和所需的球拍参数。

球拍-球交互模型假设球拍平面在撞击时与其速度保持垂直。给定对手一侧的期望落点和计算出的飞行时间,系统会计算所需的出球速度 vo ,并随后确定必要的球拍速度v^racket。规划器将目标球拍位置p^racket、目标球拍速度v^racket、击球时间t strike和期望基座位置p^base 输出给全身控制器。
实验验证表明,随着球接近击球点,预测精度显著提高。在击球前0.5秒,位置预测误差低于7.5厘米(相当于球拍半径),而在击球前0.3秒,时间预测误差低于20毫秒,为成功击球提供了足够的精度。
基于学习的全身控制器
全身控制器采用在Isaac Lab仿真中,使用近端策略优化(PPO)训练的强化学习策略。该策略融入了人类运动参考,以生成自然、有效的击球动作,同时保持平衡和敏捷性。
人类参考动作是通过使用GVHMR将视频片段转换为SMPL动作表示,然后使用高斯混合回归(GMR)重新定位到人形机器人上获得的。正手和反手两种参考动作,每个持续1.88秒,击球发生在0.86秒,为自然动作生成提供了基础。
马尔可夫决策过程的公式将机器人基座定位和球拍控制的命令分开。这种分离通过允许独立优化运动和操作组件来提高训练效率。每个回合持续10秒,通过随机采样后续挥拍参数,可以实现多次连续击球。

奖励函数结合了模仿奖励(ri)、目标跟踪奖励(rg)和正则化奖励(rr):

模仿奖励和正则化奖励在整个回合中持续应用,而目标跟踪奖励则在球拍参数的击球时间前后以及基座定位的击球前激活。不对称的actor-critic架构在训练期间为critic提供了额外的特权信息,以提高价值估计的准确性。
真实世界性能结果
HITTER系统在多项评估指标上展现出卓越的真实世界性能。在将26个球投掷穿过虚拟击球平面的受控实验中,系统实现了96.2%的击球率(26个球中25个被击中)和92.3%的回球率(26个球中24个成功回到对手一侧)。

该系统展现出与人类乒乓球常规一致的策略性打法,自动选择正手击打从左侧(y < 0)接近的球,以及反手击打从右侧(y > 0)接近的球。这种策略性行为在训练框架中自然产生,无需显式编程。

扩展的对打表现提供了系统鲁棒性最有力的证明。该人形机器人与人类对手进行了106次连续击球的对打,超越了典型的休闲游戏时长,并展示了持续跟踪、回球和平衡恢复能力。该系统成功回击了人类的扣杀球,从对手击球到机器人回球的反应时间最快达0.42秒。
性能分析与能力
敏捷性分析显示,当到目标基本位置的初始距离保持在0.75米以内时,机器人平均在0.8秒内到达目标——比典型的击球持续时间更快。这种时机确保了在执行击球前的正确定位,有助于在实际试验中观察到的高成功率。

人类运动参考的整合成功地生成了自然的击球动作,包括击球时协调的腰部旋转。这种仿生方法不仅改善了美学质量,而且通过正确的运动学协调增强了击球的有效性。
两个人形机器人的自主比赛展示了系统的泛化能力,两个机器人无需人工干预即可维持连续对打。这验证了分层框架的鲁棒性及其处理所有桌面乒乓球场景的能力。
意义与未来方向
HITTER代表着人形机器人领域的一项重大进展,它展示了在通用平台上以亚秒级反应时间成功进行动态操作的能力。分层框架有效地弥合了精确轨迹规划与敏捷全身执行之间的鸿沟,为未来的动态操作任务提供了模板。
这项工作将乒乓球确立为人形机器人敏捷性和交互能力的量化基准,超越了传统的运动和静态操作评估。实现长时间对打和与人类对手的竞争性表现验证了系统的鲁棒性和适应性。
目前的局限性包括依赖外部动作捕捉系统、固定的虚拟击球平面以及忽略旋转效应的简化球拍交互模型。未来的工作旨在整合基于视觉的感知,扩展击球种类以包括旋转和多样化的击球类型,并开发更复杂的对手建模以增强战略性比赛。这些改进将使其能够在自然环境中部署,并提升竞争能力达到人类专家水平。
成功演示的两项关键技术——在严格时间限制下精确的球轨迹预测和结合类人行为的敏捷全身运动生成——为未来需要快速环境交互和协调多关节控制的人形机器人应用提供了基础能力。

往期文章
全球首篇自动驾驶VLA模型综述重磅发布!麦吉尔&清华&小米团队解析VLA自驾模型的前世今生
字节跳动Seed实验室发布ByteDexter灵巧手:解锁人类级灵巧操作
具身专栏(三)| 具身智能中VLA、VLN、VA中常见训练(training)方法
具身专栏(二)| 具身智能中VLA、VLN分类与发展线梳理
具身专栏(一)| VLA、VA、VLN概述
π0.5:突破视觉语言模型边界,首个实现开放世界泛化的VLA诞生!
斯坦福&英伟达最新论文:CoT-VLA模型凭"视觉思维链"实现复杂任务精准操控
RoboTwin2.0全面开源!多模态大模型驱动的双臂操作Benchmark ,支持代码生成!
开源!Maniskill仿真器上LeRobot的sim2real的RL训练代码开源(附教程)
迈向机器人领域ImageNet,大牛PieterAbbeel领衔北大、通院、斯坦福发布RoboVerse大一统仿真平台
CVPR 北大、清华最新突破:机器人操作新范式,3.3万次仿真模拟构建最大灵巧手数据集
人形机器人四级分类:你的人形机器人到Level 4了吗?(附L1-L4技术全景图)建议收藏!
斯坦福最新论文:使用人类动作的视频数据,摆脱对机器人硬件的需求
爆发在即!养老机器人如何守护2.2亿老人?产业链+政策一览,建议收藏!
