无人机也能打排球吗?清华团队用强化学习探了探路

具身智能之心 2025-10-28 08:00




新智元导读:打排球是一项受国民喜爱的运动,但是机器人能打排球吗?近日,清华大学团队提出“无人机打排球”新任务,并做出初步探索,包括测试基准平台、强化学习算法设计和真机部署。相关成果已被 NeurIPS 2025 与 CoRL 2025 国际顶会收录。

随着人工智能从虚拟博弈走向真实世界,“机器人运动”——让智能体在物理空间中遵守规则、实时对抗——正成为验证具身智能(embodied AI)的关键试金石。从拳击到乒乓球、足球,具身研究已在策略推理与高精度控制上取得突破。

之前的机器人运动主要集中于地面机器人,随着空中机器人的发展,“飞得快”的无人机竞速比赛已经不能全面衡量其智能程度。在这样的背景下,清华大学团队提出了一个全新的具身智能任务——无人机打排球(multi-drone volleyball),进一步将这一挑战推向三维空间。这不仅需要无人机具备高机动性和精确控制,还必须能在团队内合作、对抗对方策略,实现真正的“空中攻防”。该任务要求无人机集群组成团队,在空中协作将球击过球网,同时需要对抗对方无人机队伍。看似简单的“排球赛”,却融合了各种难题:

  • 混合博弈:无人机队友之间需要密切协作,而队伍之间又存在竞争与对抗;
  • 回合制交互结构:攻防切换与传球节奏遵循真实排球规则,要求智能体具备长时记忆与时序决策能力。
  • 复杂的物理约束:四旋翼无人机为欠驱动系统,要求极高的姿态控制与反应速度;
  • 无专家演示:缺乏模仿数据,所有策略与技能必须从零学习。

在这一背景下,清华团队构建了 VolleyBots 无人机打排球测试平台,模仿人类学习排球技能过程,提出一系列单机、多机合作、多机对抗的任务。在此工作之上,进一步设计分层协同自博弈算法 Hierarchical Co-Self-Play(HCSP),通过分层策略学习与自博弈机制,让无人机在对抗中逐步学会配合、分工与进攻防守转换。最后,在单机颠球任务上,将强化学习策略zero-shot sim2real到真机上,比传统baseline提升一个数量级!

无人机打排球测试平台(NeurIPS 2025 DB track)

无人机也能打排球吗?清华团队用强化学习探了探路图1

论文链接:https://arxiv.org/pdf/2502.01932

Github链接:https://github.com/thu-uav/VolleyBots

项目网站:https://sites.google.com/view/thu-volleybots

无人机也能打排球吗?清华团队用强化学习探了探路图2

该团队搭建了一个完整的研究平台——VolleyBots环境。该平台基于 NVIDIA Isaac Sim 高保真物理引擎,精确模拟了无人机动力学、气动力、碰撞、弹性反弹等真实物理效果。

研究团队在此基础上模仿人类学习排球技能过程,设计了多层级任务体系:

  • 单机任务:无人机需要完成如“往返飞行”、“击球”、“连续颠球”等基本技能;

  • 多机合作任务:两架无人机开始进行传球、配合与扣杀的训练,学会在有限时间窗口内完成精确交互;

  • 多机对抗任务:多无人机参与 1v1、3v3、6v6 等形式的比赛,完整模拟排球比赛的攻防节奏与战术变化。

无人机也能打排球吗?清华团队用强化学习探了探路图3

在算法研究方面,VolleyBots 内置并测试了多种强化学习与博弈算法,包括单智能体算法如 PPO、TD3、SAC、DDPG,以及多智能体算法如 MAPPO、HAPPO、QMIX、MAT 等,同时还引入了经典的博弈学习框架如Self-Play和PSRO。

实验表明,在单智能体任务中,基于策略梯度的 on-policy 算法(如 PPO)表现最为稳定,而在多智能体协作与对抗任务中,MAPPO 与 HAPPO 等算法在策略一致性和稳定性方面表现更优。然而,当场景扩展到 3v3 或更大规模的混合对抗时,传统的自博弈算法难以收敛,策略学习效率显著下降,这暴露出现有方法在复杂决策层次上的局限性。

分层协同自博弈算法(CoRL 2025)

无人机也能打排球吗?清华团队用强化学习探了探路图4

论文链接:https://arxiv.org/pdf/2505.04317

项目网站:https://sites.google.com/view/hi-co-self-play

无人机也能打排球吗?清华团队用强化学习探了探路图5

研究团队设计了一种全新的强化学习框架——分层协同自博弈(Hierarchical Co-Self-Play, HCSP),把复杂的排球对抗任务拆分为:负责团队战术与角色分配的高层策略(high-level strategy)和负责每架无人机的精细飞行与击球动作的低层技能(low-level skill);

在该分层架构基础之上,设计了三个阶段的训练流程:

  • 阶段1 低层技能学习:每架无人机单独学习基础动作,如发球、接球、传球、扣球、悬停、定位等,通过"策略链(Policy Chaining)"保证动作衔接平滑。

  • 阶段2 高层策略博弈:固定底层技能后,AI通过自博弈学习团队战术,比如球员位置分配、攻防切换、如何在三次触球内最大化得分。

  • 阶段3 协同自博弈(Co-Self-Play):策略和技能一起进化。策略在对抗中重新训练自己的低层动作,学会根据比赛情境自发调整打法甚至自我演化出“二传吊球”战术

无人机也能打排球吗?清华团队用强化学习探了探路图6

实验结果令人印象深刻。研究团队设置了五种对手进行全面测试,包括标准自博弈算法(SP)、策略空间响应优化(PSRO)、基于规则的分层策略等。结果显示,HCSP训练的策略以平均 82.9% 的胜率击败了多种基线算法,对抗最强的基于规则的分层策略时也能保持 71.5% 的胜率。

更令人惊喜的是,HCSP不仅“赢得多”,而且“打得聪明”。在比赛中,无人机队伍形成了明确的分工与协作:有的负责防守和接球,有的负责二传,有的则在前场准备进攻。随着训练的深入,策略在协同自博弈的过程中自发形成了新的配合技战术,出现了人类球赛中常见的“临场战术”现象。例如,策略会尝试选择“二传吊球”策略,以通过出其不意的方式突破对方防线。

单机颠球 Sim2Real

无人机也能打排球吗?清华团队用强化学习探了探路图7

论文链接:https://arxiv.org/abs/2509.24892

Github链接:https://github.com/thu-uav/JuggleRL_train

项目网站:https://huggingface.co/spaces/nics-efc/JuggleRL

研究团队提出了JuggleRL——一个让无人机在真实世界中稳定连续颠球的强化学习系统。这项研究首次实现了四旋翼无人机基于强化学习的真实物理交互,把高保真仿真、域随机化、系统辨识与零样本真机部署完整打通,完成了“Real2Sim2Real”的闭环。其核心流程包括:

  • 系统辨识:精确测量无人机与球拍-球系统的动力学参数,如无人机质量和转动惯量、电机推力系数、球拍与球的碰撞恢复系数等,从而构建高保真仿真模型。

  • 域随机化:在仿真中随机化无人机和球的初始位置、球与球拍的碰撞恢复系数等,以提升策略在真实环境中的鲁棒性和迁移能力。

  • 高并行训练和奖励塑形:基于 Isaac Sim 和 OmniDrones 构建高并行仿真环境,采用 PPO 算法训练颠球策略。通过奖励设计引导策略学会“球拍中心击球”和“稳定、持续颠球”。

  • 零样本真机部署:将训练好的策略直接部署到真实无人机上,无需真实数据微调。为保证实时控制,研究团队设计了轻量通信协议,并结合高频状态估计模块,实现真实世界中最多连续颠球 462 次。

无人机也能打排球吗?清华团队用强化学习探了探路图8

最终,JuggleRL 在未经任何真实数据微调的情况下,在真实世界连续颠球最高达 462 次(平均 311 次),远超此前基于感知-规划-轨迹跟踪控制的分层方法(最高仅14次)。  这一成果标志着具身强化学习从“虚拟对抗”走向“真实物理交互”的关键一步。

从最初构想“让无人机也能打排球”的虚拟环境出发,研究团队一步步将强化学习真正带入具身智能的世界。

VolleyBots Testbed 为“空中对抗”建立了全新的标准化仿真平台;
HCSP 算法 让多智能体在高速动态环境中学会了协作与博弈;
而 JuggleRL 则把单机颠球任务从仿真成功迁移到现实世界。

从“搭建舞台”,到“训练演员”,再到“真实世界上演”,

这一系列研究共同见证了具身智能从虚拟走向现实的跨越。

一个关于无人机感知、决策与行动的“排球”故事,仍在继续……

如果你对“无人机打排球”项目感兴趣,欢迎加入我们的研究,共同推进无人系统与智能体学习的前沿探索。

联系邮箱:zoeyuchao@gmail.com

无人机也能打排球吗?清华团队用强化学习探了探路图9

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
无人机
more
高质量竞争取代价格战,低空经济规模有望突破万亿!程泊霖:无人机产业正开启行业整合
创衡控制亮相2025年京津冀森林火灾联合处置应急演练:无人机防灭火,筑牢京畿生态安全屏障
小特朗普入股的公司获美军无人机采购订单
共享无人机,正成为低空经济新风口
杭州智翔航空迎武义县残联与杭州武义商会调研交流,共话无人机创新与家乡发展新机遇
无人机飞出的新财富:我们如何用“数据资产”实现二次盈利
第一届无人机物流吊运农业植保飞手技能大赛震撼来袭!
靠意念操作机械臂 凭脑电波控制无人机 脑机接口助你“心想事成”
2025年Q3无人机订单盘点!总金额突破11.2亿元,采购无人机数量超过3200架——点击获取订单详情
无人机消防应用大揭秘
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号