【无人机】上交研究登Nature大子刊!可微分物理首次突破端到端无人机高速避障

人工智能产业链union 2025-07-14 14:55

本文主要作者来自上海交通大学和苏黎世大学,第一作者张宇昂,上海交通大学研究生,主要研究方向包括可微分物理机器人、多目标追踪和AIGC;共同一作胡瑜,上海交通大学博士生,主要研究方向为无人机视觉导航;共同一作宋运龙博士来自苏黎世大学,主要研究方向是强化学习、最优控制。通讯作者为上海交通大学的林巍峣教授和邹丹平教授。


想象一下:在未知森林、城市废墟甚至障碍密布的室内空间,一群无人机像飞鸟般快速穿梭,不依赖地图、不靠通信、也无需昂贵设备。这一设想,如今成为现实!


上海交通大学研究团队提出了一种融合无人机物理建模与深度学习的端到端方法,该研究首次将可微分物理训练的策略成功部署到现实机器人中,实现了无人机集群自主导航,并在鲁棒性、机动性上大幅领先现有的方案。


该成果已于《Nature Machine Intelligence》在线发表。其中张宇昂硕士、胡瑜、宋运龙博士为共同第一作者,邹丹平与林巍峣教授为通信作者。


图片


核心理念:大道至简


过去的无人机自主导航往往依赖:



经过不懈努力,研究团队设法探索出一条崭新的途径:



最终实现训练一次,多机共享权重,零通信协同飞行


惊艳表现:现实世界中疾驰穿越


图片


在单机场景中,将网络模型部署在无人机上后在不同的真实环境中进行测试,包括树林、城市公园,以及含有静态和动态障碍的室内场景。该网络模型在未知复杂环境中的导航成功率高达 90%,相比现有最优方法展现出更强的鲁棒性。


在真实树林环境中,无人机飞行速度高达 20 米 / 秒,是基于模仿学习的现有方案速度的两倍。所有测试环境均实现 zero-shot 零样本迁移。该系统无需 GPS 或者 VIO 提供定位信息即可运行,并能适应动态障碍物。


图片
图片

图 1  多机飞行


多机协同场景中,将网络模型部署到 6 架无人机上执行同向穿越复杂障碍和互换位置任务。该策略在同向穿越门洞、动态障碍物和复杂静态障碍物的场景中展示了极高的鲁棒性。在多机穿越门洞互换位置的实验中,展现出了无需通信或集中规划的自组织行为。


图片
图片

图 2  多机自组织协作


图片

图 3  动态避障


思路关键:将物理原理嵌入网络训练

让无人机 「自己学会飞」



图片

图 4  低成本算力平台


训练总体框架如下图所示,通过与环境交互来训练策略网络,在每一个时间步,策略网络接收深度图像作为输入,并通过策略网络输出控制指令(推力加速度和偏航角)。可微物理模拟器根据控制指令模拟无人机的质点运动,进行状态更新:


图片
 
图片

在新的状态下可以渲染新的深度图像并计算代价函数。代价函数由多个子项组成,包括速度跟踪项、避障项、平滑项等。在轨迹采集完毕后,代价函数可通过链式法则(图 1 中红色箭头)计算梯度实现反向传播,从而直接优化策略参数。


「简约即美」 的训练诀窍


简单模型:使用质点动力学替代复杂飞行器建模。

简单图像:低分辨率渲染 + 显式几何建模,提升仿真效率。

简单网络:三层卷积 + GRU 时序模块,小巧高效。


此外,训练过程中通过引入局部梯度衰减机制,有效解决训练中梯度爆炸问题,让无人机 「专注于眼前」 的机动策略自然涌现。


方法对比:强化学习、模仿学习

还是物理驱动?


当前具身智能的主流训练范式主要分为两类:强化学习(Reinforcement Learning, RL)与模仿学习(Imitation Learning, IL)。然而,这两类方法在效率与可扩展性方面均存在明显瓶颈:



相比之下,本研究提出的基于可微分物理模型的训练框架,有效融合了物理先验与端到端学习的优势。通过将飞行器建模为简单的质点系统,并嵌入可微分仿真过程,能够直接对策略网络的参数进行梯度反向传播,从而实现高效、稳定且物理一致的训练过程。


研究在实验中系统对比了三种方法(PPO、Agile、本研究方法),主要结论如下:



这一对比结果不仅验证了 「物理驱动」的有效性,也表明:当我们为智能体提供正确训练方法时,强智能不一定需要海量数据与昂贵试错。


图片

图 5 本研究方法以 10% 的训练数据量即超过现有方法 (PPO+GRU),收敛性能远高于现有方法。


图片

图 6 模型部署避障成功率对比


雾里看花:可解释性探究


尽管端到端神经网络在自主飞行避障任务中表现出强大性能,其决策过程的不透明性仍是实际部署中的一大障碍。为此,我们引入 Grad-CAM 激活图工具,对策略网络在飞行过程中的感知注意力进行了可视化分析。


图 7 展示了不同飞行状态下输入的深度图(上排)及其对应的激活图(下排)。可以观察到,网络的高响应区域高度集中在飞行路径中最可能发生碰撞的障碍物附近,例如树干、柱体边缘。这表明,尽管训练过程中没有显式监督这些 「危险区域」,网络已自发学会将注意力集中在潜在风险最大的区域上。这一结果传递出两个重要信息:网络不仅在行为层面实现了成功避障,其感知策略本身也具有一定的结构合理性与物理解释性;而可解释性工具也有助于我们进一步理解端到端策略背后的 「隐性规则」。


图片

图 7 通过观察激活图,激活区域与最危险障碍强相关


思考与启发:大模型时代中的 「小模型」


在这个几乎一切技术路径都奔向 「大」的时代,基础模型、通用智能、Scaling Law 正逐渐成为信仰。人们谈论的是参数规模、数据体量、计算资源 —— 仿佛智能的本质就在于 「越大越好」,而 「小」则成了被遗忘的方向,甚至被误解为 「不足为道」。


然而,自然界从不遵循单一尺度的美学。


它既孕育了人类这样拥有亿级神经元的智慧生物,也赋予了果蝇、蚂蚁、蜜蜂等微小生灵以惊人的生存智慧。它们不靠算力、不依赖高精度传感器,却能在复杂世界中做出迅速而精妙的反应。这种 「生存意义上的智能」,或许恰是我们今日在追求 「强智能」 时最容易忽略的维度。


从本项研究中我们得到了三个深刻的启发:


1. 小模型有其存在的合理性,甚至是理解 「大模型」的入口


人类认知系统复杂而庞大,但理解人类大脑的第一步,并不是直接对人脑建模,而是回到果蝇这样神经回路清晰、结构机制简单的生物个体。从某种意义上说,果蝇不仅不是神经科学的例外,它是神经科学的起点。


同样道理,小模型不是大模型的对立面,而是其结构理解与机制抽象的镜像反射。它们提供了一个更透明的窗口,让我们看清决策、感知与控制之间最本质的耦合关系。在这项工作中,我们用一个参数量不到 2MB 的小网络,实现了多机间无需通信的自组织协同。这不仅是工程简约的胜利,更是系统智慧本源的回归。


2. 不是所有智能都必须建立在大规模数据之上


我们在一个完全仿真的世界中采集数据 —— 没有庞大的数据集,没有互联网语料,也没有数百万小时的飞行日志。相反,我们只依靠可控、可微的物理引擎,用少量任务场景与目标函数,在一个仅由简单几何体构成的仿真环境中就训练出了能在现实世界中零样本迁移、应对复杂障碍的小型基于视觉的飞行控制策略。


这是一种反常识的成果。它提醒我们,智能的来源不必拘泥于数据体量的绝对值,而更应关注 「结构匹配」 与 「机制嵌入」


「一个真正懂物理的网络,也许比一个背诵万卷飞行日志的网络更可靠。」


3. 粗糙的感知,也能支撑精准的智能行为


果蝇的视觉系统由约 800 个简单的复眼构成,其成像能力甚至不及低配监控摄像头。然而就是这样一个 「低分辨率生物」,可以在高速飞行中完成复杂的空间规避、空中悬停与捕食等任务。精度低,并不等于智能低。


我们也使用了类似 「果蝇之眼」的设置:12×16 分辨率的深度图像输入,结合简单的物理模型和策略网络,就能驱动无人机以高达 20 米 / 秒的速度自主飞行。这一实验结果无声地提出了一个颠覆性假设:


「真正决定导航能力的,并非传感器的精度,而是智能体对物理世界的内在理解程度。」


或许未来的智能,不再是一味 「堆大」,而是对 「小」 的重新理解与深度挖掘


后续研究:端到端单目自主 FPV 无人机


研究团队后续改进与拓展了可微物理引擎框架与训练方法,进一步实现了国际首个基于单目 FPV 摄像头的端到端视觉避障系统,在真实室外环境中实现最高 6m/s 飞行速度,无需建图即可自主导航,该研究已在《IEEE Robotics and Automation Letters》发表。


图片

图 8 端到端 FPV(第一人称视角摄像头)自主飞行


相关论文与视频 

Hu, Yu, Yuang Zhang, Yunlong Song, Yang Deng, Feng Yu, Linzuo Zhang, Weiyao Lin, Danping Zou, and Wenxian Yu. "Seeing Through Pixel Motion: Learning Obstacle Avoidance From Optical Flow With One Camera," in IEEE Robotics and Automation Letters, vol. 10, no. 6, pp. 5871-5878, June 2025, doi: 10.1109/LRA.2025.3560842.

单目避障视频地址:https://www.bilibili.com/video/BV1o7fMYzEA7/ 

☟☟☟

☞人工智能产业链联盟筹备组征集公告☜


精选报告推荐:

11份清华大学的DeepSeek教程,全都给你打包好了,直接领取:


【清华第一版】DeepSeek从入门到精通

【清华第二版】DeepSeek如何赋能职场应用?


【清华第三版】普通人如何抓住DeepSeek红利?

【清华第四版】DeepSeek+DeepResearch让科研像聊天一样简单?

【清华第五版】DeepSeek与AI幻觉

【清华第六版】DeepSeek赋能家庭教育

【清华第七版】文科生零基础AI编程:快速提升想象力和实操能力

【清华第八版】DeepSeek政务场景应用与解决方案

【清华第九版】迈向未来的AI教学实验

【清华第十版】DeepSeek赋能品牌传播与营销

【清华第十一版】2025AI赋能教育:高考志愿填报工具使用指南

 10份北京大学的DeepSeek教程

【北京大学第一版】DeepSeek与AIGC应用

【北京大学第二版】DeepSeek提示词工程和落地场景

【北京大学第三版】Deepseek 私有化部署和一体机

【北京大学第四版】DeepSeek原理与落地应用

【北京大学第五版】Deepseek应用场景中需要关注的十个安全问题和防范措施

【北京大学第六版】DeepSeek与新媒体运营

【北京大学第七版】DeepSeek原理与教育场景应用报告

【北京大学第八版】AI工具深度测评与选型指南

【北京大学第九版】AI+Agent与Agentic+AI的原理和应用洞察与未来展望

【北京大学第十版】DeepSeek在教育和学术领域的应用场景与案例(上中下合集)

8份浙江大学的DeepSeek专题系列教程

浙江大学DeepSeek专题系列一--吴飞:DeepSeek-回望AI三大主义与加强通识教育

浙江大学DeepSeek专题系列二--陈文智:Chatting or Acting-DeepSeek的突破边界与浙大先生的未来图景

浙江大学DeepSeek专题系列三--孙凌云:DeepSeek:智能时代的全面到来和人机协作的新常态

浙江大学DeepSeek专题系列四--王则可:DeepSeek模型优势:算力、成本角度解读

浙江大学DeepSeek专题系列五--陈静远:语言解码双生花:人类经验与AI算法的镜像之旅

浙江大学DeepSeek专题系列六--吴超:走向数字社会:从Deepseek到群体智慧

浙江大学DeepSeek专题系列七--朱朝阳:DeepSeek之火,可以燎原

浙江大学DeepSeek专题系列八--陈建海:DeepSeek的本地化部署与AI通识教育之未来

4份51CTO的《DeepSeek入门宝典》

51CTO:《DeepSeek入门宝典》:第1册-技术解析篇

51CTO:《DeepSeek入门宝典》:第2册-开发实战篇

51CTO:《DeepSeek入门宝典》:第3册-行业应用篇

51CTO:《DeepSeek入门宝典》:第4册-个人使用篇

5份厦门大学的DeepSeek教程

【厦门大学第一版】DeepSeek大模型概念、技术与应用实践

【厦门大学第二版】DeepSeek大模型赋能高校教学和科研

【厦门大学第三版】DeepSeek大模型及其企业应用实践

【厦门大学第四版】DeepSeek大模型赋能政府数字化转型

【厦门大学第五版】DeepSeek等大模型工具使用手册-实战篇

10份浙江大学的DeepSeek公开课第二季专题系列教程

【精选报告】浙江大学公开课第二季:《DeepSeek技术溯源及前沿探索》(附PDF下载)

【精选报告】浙江大学公开课第二季:2025从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例(附PDF下载)

【精选报告】浙江大学公开课第二季:智能金融——AI驱动的金融变革(附PDF下载)

【精选报告】浙江大学公开课第二季:人工智能重塑科学与工程研究(附PDF下载)

【精选报告】浙江大学公开课第二季:生成式人工智能赋能智慧司法及相关思考(附PDF下载)

【精选报告】浙江大学公开课第二季:AI大模型如何破局传统医疗(附PDF下载)

【精选报告】浙江大学公开课第二季:2025年大模型:从单词接龙到行业落地报告(附PDF下载)

【精选报告】浙江大学公开课第二季:2025大小模型端云协同赋能人机交互报告(附PDF下载)

【精选报告】浙江大学公开课第二季:DeepSeek时代:让AI更懂中国文化的美与善(附PDF下载)

【精选报告】浙江大学公开课第二季:智能音乐生成:理解·反馈·融合(附PDF下载)

6份浙江大学的DeepSeek公开课第三季专题系列教程

【精选报告】浙江大学公开课第三季:走进海洋人工智能的未来(附PDF下载)

【精选报告】浙江大学公开课第三季:当艺术遇见AI:科艺融合的新探索(附PDF下载)

【精选报告】浙江大学公开课第三季:AI+BME,迈向智慧医疗健康——浙大的探索与实践(附PDF下载)

【精选报告】浙江大学公开课第三季:心理学与人工智能(附PDF下载)

【精选报告】浙江大学公开课第三季:人工智能赋能交通运输系统——关键技术与应用(附PDF下载)

【精选报告】浙江大学公开课第三季:人工智能与道德进步(附PDF下载)


相关阅读

干货推荐:
AI加油站】第一部:《大型语言模型应用检索增强生成:改变搜索、推荐和 AI 助手》附下载
【AI加油站】第二部:《程序员的自我修炼手册》(附下载)
【AI加油站】第三部:《大规模语言模型:从理论到实践》(附下载)
【AI加油站】第四部:《使用生成式人工智能和Python开始数据分析》(附下载)
【AI加油站】第五部:《使用生成式人工智能和Python开始数据分析》(附下载)
【AI加油站】第六部:《时间序列:建模、计算与推断》(附下载)
【AI加油站】第七部:《因果关系的逻辑理论的好书-A Logical Theory of Causality》(附下载)

【AI加油站】第八部:《模式识别(第四版)-模式识别与机器学习》(附下载)

【AI加油站】第九部:《Python深度学习(中文版)》(附下载)
【AI加油站】第十部:《机器学习方法》(附下载)
【AI加油站】第十一部:《深度学习》(附下载)
【AI加油站】第十二部:《从零开始的机器学习》(附下载)
【AI加油站】第十三部:《Transformer入门到精通》(附下载)
【AI加油站】第十四部:《LLM 应用开发实践笔记》(附下载)
【AI加油站】第十五部:《大模型基础 完整版》(附下载)
【AI加油站】第十六部:《从头训练大模型最佳实践》(附下载)
【AI加油站】第十七部:《大语言模型》(附下载)
【AI加油站】第十八部:《深度强化学习》(附下载)
【AI加油站】第十九部:清华大学《大模型技术》(附下载)
【AI加油站】第二十部:Prompt入门神书-《Prompt 学习指南》(附下载)
【AI加油站】第二十一部:吴恩达&open AI联合推出《大模型通关指南》(附下载)
【AI加油站】第二十二部:《李宏毅深度学习教程》值得反复阅读的神书!(附下载)
【AI加油站】第二十三部:Prompt经典中文教程-《提示工程指南》(附下载)
【AI加油站】第二十四部:爆火下载28万次!MIT最新神书《理解深度学习》(附下载)
【AI加油站】第二十五部:LLM4大名著,OpenAI专家强推《深度解析:大语言模型理论与实践》(附下载)
【AI加油站】第二十六部:NLP大牛Thomas Wolf等新书《Transformer自然语言处理》(附下载)
面试推荐:
【AI加油站】AI面试专题一:BIO,NIO,AIO,Netty面试题(附下载)
【AI加油站】AI面试专题二:Git常用命令面试题(附下载)
【AI加油站】AI面试专题三:Java常用面试题(附下载)
【AI加油站】AI面试专题四:Linux系统的面试题集(附下载)
【AI加油站】AI面试专题五:Memcached 面试题集(附下载)
【AI加油站】AI面试专题六:MyBatis框架的面试题(附下载)
【AI加油站】AI面试专题七:MySQL相关的面试题资料(附下载)
【AI加油站】AI面试专题八:Netty面试题资料(附下载)
【AI加油站】AI面试专题九:Nginx的面试题资料(附下载)
【AI加油站】AI面试专题十:RabbitMQ的面试题资料(附下载)
【AI加油站】AI面试专题十一:Redis的面试题资料(附PDF下载)
【AI加油站】AI面试专题十二:Spring的面试题资料(附PDF下载)
【AI加油站】AI面试专题十三:Apache Tomcat的面试题资料(附PDF下载)
【AI加油站】AI面试专题十四:Zookeeper的面试题资料(附PDF下载)
【AI加油站】AI面试专题十五:《阿里巴巴Java开发手册》终极版的面试题资料(附PDF下载)

人工智能产业链联盟高端社区




图片
精选主题推荐:
Manus学习手册
从零开始了解Manus

DeepSeek 高级使用指南,建议收藏

一次性说清楚DeepSeek,史上最全(建议收藏)

DeepSeek一分钟做一份PPT

用DeepSeek写爆款文章?自媒体人必看指南

【5分钟解锁DeepSeek王炸攻略】顶级AI玩法,解锁办公+创作新境界!

DeepSeek接入个人微信!24小时智能助理,随时召唤!
PS×Deepseek:一句话编写PS脚本,搞定PS批量导出图层
如何让AI给自己打工,10分钟创作一条爆款视频?
荐:
【中国风动漫】《姜子牙》刷屏背后,藏着中国动画100年内幕!
【中国风动漫】除了《哪吒》,这些良心国产动画也应该被更多人知道!

【中国风动漫】《雾山五行》大火,却很少人知道它的前身《岁城璃心》一个拿着十米大刀的男主夭折!

图片
声明

免责声明:部分文章和信息来源于互联网,不代表本订阅号赞同其观点和对其真实性负责。如转载内容涉及版权等问题,请立即与小编联系(微信号:913572853),我们将迅速采取适当的措施。本订阅号原创内容,转载需授权,并注明作者和出处。如需投稿请与小助理联系(微信号:AI480908961)

编辑:Zero

图片


图片
图片

图片

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
无人机
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号