CoRL 2025|所见即所飞:VLM直接操控无人机,无需训练也能精准导航,成功率提升63%!

3D视觉工坊 2025-10-14 07:00

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:深蓝AI

星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

CoRL 2025|所见即所飞:VLM直接操控无人机,无需训练也能精准导航,成功率提升63%!图1

导读

如果无人机真的能听懂人话,会是一种怎样的体验?比如你说:“飞到穿绿色衣服的人那儿”,它就立刻起飞、识别目标、绕开障碍、稳稳停在那人身边——不需要任何训练、没有任务微调、也不依赖预定义动作库。这并非幻想。

来自台湾阳明交通大学与台大的研究团队在 CoRL 2025 上提出了一个颇具突破性的框架——See, Point, Fly(SPF)。它让大语言模型(VLM)第一次在真实无人机控制中实现“所见即所飞”:只需一张图像和一句自然语言,就能完成目标定位、路径规划与闭环飞行。更令人惊讶的是:SPF 完全无需训练(training-free),却在模拟和真实环境中分别取得了 93.9% 和 92.7% 的成功率,比上一代方法提升了整整 63%。这意味着,未来的无人机可能不再需要专门学习如何飞,而是直接“看图说话”就能上天

CoRL 2025|所见即所飞:VLM直接操控无人机,无需训练也能精准导航,成功率提升63%!图2

图1|一张图展示了 SPF 的核心循环:摄像头捕捉画面,VLM 输出目标坐标与障碍框,控制器实时更新飞行指令。无人机“看懂一句话”后,就能自动起飞并避障前进

论文出处:CoRL2025

论文标题:See, Point, Fly: A Learning-Free VLM Framework for Universal Unmanned Aerial Navigation

论文作者:Chih Yao Hu, Yang-Sen Lin, Yuna Lee, Chih-Hai Su, Jie-Ying Lee, Shr-Ruei Tsai,Chin-Yang Lin, Kuan-Wen Chen, Tsung-Wei Ke, Yu-Lun Liu

1
从“看懂”到“飞过去”:SPF的整体框架

传统的VLM无人机方案大多把导航当作“文字输出问题”——模型生成“turn left”“go forward”这类动作文本,再交给控制器解析。而 SPF 的核心思想恰恰相反:让VLM直接在图像上“指路”。研究者把无人机的相机画面输入到冻结的VLM中,并附上自然语言指令(例如“飞向那个穿绿色衣服的人”)。模型输出的不是文字,而是一个 JSON 结构化结果:包括目标点的 2D 像素坐标、预测的飞行距离以及障碍物的边界框。随后,SPF 的控制模块将这些2D点“抬升到3D空间”,转换成无人机的位移指令(前进、上升、转向),形成完整的闭环飞行控制循。每一次循环就是“看—想—飞”的一次决策,这种思路让VLM真正走出了屏幕,成为会“动”的智能体

CoRL 2025|所见即所飞:VLM直接操控无人机,无需训练也能精准导航,成功率提升63%!图3

图2|SPF 的飞行闭环包括三个阶段:理解阶段:VLM 接收图像与语言指令,输出结构化 JSON,包含目标点、预测距离与障碍物框。控制阶段:Action-to-Control 模块将这些输出转化为底层控制信号(偏航、俯仰、升降速度)。执行阶段:无人机实时更新视觉输入并重复循环,直到任务完成

2
三个关键创新点

 语言变“坐标”

SPF 重新定义了 VLM 的角色——不再生成文本,而是生成带空间语义的“可视化标注”。

模型根据语言理解,在画面中选出目标区域并标出飞行点。这种“所见即所得”的方式天然具备空间一致性,无需再训练任何导航网络,就能把复杂语义转化为可执行动作。即使遇到模糊指令(如“飞到看起来最舒适的椅子”),VLM 也能凭通用常识推断合理目标。

CoRL 2025|所见即所飞:VLM直接操控无人机,无需训练也能精准导航,成功率提升63%!图4

图3|这张图解析了 SPF 如何把“看懂的点”变成“能飞的动作”:(a) 系统用一条非线性曲线自适应调整飞行步长,开阔处走快一点、障碍多时放慢脚步;(b) 将预测的 2D 航点通过针孔模型反投影为 3D 位移向量;(c) 再把这个向量分解为偏航、俯仰、升降三种控制指令。最终,这些命令被连续发送给无人机,实现流畅、稳定的闭环控制

 自适应步长:越开阔飞得快,越危险走得稳

不同于传统的固定速度控制,SPF 设计了一个自适应飞行距离机制

 系统根据VLM输出的“深度提示”动态调整飞行步长——在开阔场景中迈大步、快速前进;

 在狭窄空间里则谨慎微调。

这一机制大幅提升了导航效率:实验显示,在相同任务下,飞行时间从61秒缩短到28秒,几乎减半。可以理解为:它不仅知道“去哪”,还懂得“该多快”

CoRL 2025|所见即所飞:VLM直接操控无人机,无需训练也能精准导航,成功率提升63%!图5

图4|这张图展示了自适应步长控制器的效果。在相同任务下,将固定步长改为自适应调节后,无人机的飞行时间直接缩短一半,同时任务成功率提升到 100%(5/5)。也就是说,SPF 不仅能聪明地“去哪”,还知道该多快、多稳地飞过去

 零训练闭环控制

SPF 整个系统无需任何新训练或数据微调。它利用冻结的VLM(如 Gemini 2.0/2.5、GPT-4.1、Claude 3.7 等)直接推理,并结合几何映射与轻量控制器,实现完整闭环。这一点尤其关键:SPF 不是让AI学会飞,而是让AI直接会飞在硬件上,它甚至可以运行在低功耗平台(如 DJI Tello EDU)上,用纯 Python SDK 即可实时控制

3
实验表现

研究团队在 Drone Racing League Simulator 和真实无人机上共设计了 34 个任务场景,包括:

 静态导航(Navigation)

 动态避障(Obstacle Avoidance)

 多阶段长程飞行(Long Horizon)

 推理与语义理解(Reasoning)

 搜索与跟随(Search / Follow)

结果令人震撼:

CoRL 2025|所见即所飞:VLM直接操控无人机,无需训练也能精准导航,成功率提升63%!图6

图5|SPF多场景实验结果(定量)

从实验结果能够看到,SPF在仿真环境和真实环境都达到了92%以上的成功率,相比之下,前一代方法 TypeFly 仅为 0.9%,PIVOT 为 28.7%。在真实场景中,SPF 成功避开障碍物、理解复杂指令,还能跟随动态目标——几乎达到“即插即飞”的通用智能水平

CoRL 2025|所见即所飞:VLM直接操控无人机,无需训练也能精准导航,成功率提升63%!图7

图6|这张图展示了 SPF 与其他方法在真实环境中的飞行轨迹对比。绿色表示无人机的起飞路径,洋红色表示执行任务时的飞行轨迹。可以看到,SPF 的路线更加平滑、精准,能稳定避障并到达目标;而其他基线方法常出现偏航、漂移甚至中途停滞

4
总结

SPF 的出现,是大模型进入“低空智能时代”的重要信号。它证明了——无需再为机器人训练专用模型,通用VLM也能直接驱动真实世界的物理行为

这不只是“看图飞行”,更是一种新的范式转变:让AI从语言世界,真正“走向空间”。未来,在旅行途中,或许我们能对无人机直接说“帮我拍一个日照金山下的希区柯克变焦吧”,随后张开不再需要握紧遥控器的双手摆好pose,等待旅行大片的生成。

编辑|阿豹

审编|阿蓝


本文仅做学术分享,如有侵权,请联系删文。

3D视觉硬件,官网:www.3dcver.com

CoRL 2025|所见即所飞:VLM直接操控无人机,无需训练也能精准导航,成功率提升63%!图8

3D视觉学习圈子

星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

CoRL 2025|所见即所飞:VLM直接操控无人机,无需训练也能精准导航,成功率提升63%!图9

3D视觉全栈学习课程:www.3dcver.com

CoRL 2025|所见即所飞:VLM直接操控无人机,无需训练也能精准导航,成功率提升63%!图10

3D视觉交流群成立啦,微信:cv3d001

CoRL 2025|所见即所飞:VLM直接操控无人机,无需训练也能精准导航,成功率提升63%!图11

添加微信:cv3d001,备注:方向+单位,邀你入3D视觉交流群!

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
功率 导航 无人机
more
【无人机】远程处理事故、精准识别险情,多地高速上线无人机巡逻
CoRL 2025|所见即所飞:VLM直接操控无人机,无需训练也能精准导航,成功率提升63%!
无人机配送,补足服务盲区而非替代骑手
土耳其无人机遭遇克星:中国FK-2000防空系统实战表现亮眼,打破西方偏见
奋勇争先 | 闽清开通首条山区无人机“空中暖心路” “飞”出乡村振兴新高度
我国首个政务领域大模型应用专项政策文件出台,强调场景牵引,社会治理类利用无人机等设备技术开展智能监测巡检
央视关注 | 四川遂宁:无人机光影秀闪耀夜空
【无人机】美国签署近50亿美元合同采购“Coyote”拦截无人机
首次!电缆终端杆无人机全自主巡检
商务部列出的14家外国无人机不可靠实体都是干什么的?简要概况说明→
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号