ACM MM'25 | 小鹏最新:利用导航指令模仿人类驾驶员的超视距自动驾驶

3D视觉工坊 2025-07-28 07:00

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

3D视觉工坊很荣幸邀请到了UCF三年级博士生Qucheng Peng,为大家着重分享他们团队的工作:NavigScene。如果您有相关工作需要分享,欢迎文末联系我们。

资讯配图NavigScene: Bridging Local Perception and Global Navigation for Beyond-Visual-Range Autonomous Driving
论文https://arxiv.org/pdf/2507.05227

直播信息

时间

2025年07月28日(周一)10:30

主题

ACM MM'25 | 小鹏最新:利用导航指令模仿人类驾驶员的超视距自动驾驶

直播平台

3D视觉工坊哔哩哔哩

扫码观看直播,或前往B站搜索3D视觉工坊观看直播

资讯配图

3D视觉工坊视频号也将同步直播

主讲嘉宾

Qucheng Peng

现为UCF三年级博士生,同时在Amazon担任研究实习生。研究方向为基于高斯溅射的多模态3D场景理解,以及多模态大模型在自动驾驶等领域的应用。曾在ICLR,CVPR,ICCV,IJCAI,ACM MM等会议上发表独立一作论文,并担任BMVC领域主席,以及NIPS,ICCV,TIP,TNNLS等会议期刊审稿人。

直播大纲

  1. 自动驾驶研究问题简介
  2. 导航数据集的视觉生成和文本生成
  3. 基于导航数据集的多模态大模型后训练
  4. 基于导航数据集的视觉-语言-动作模型

参与方式

资讯配图

:3D视觉工坊很荣幸邀请到了UCF三年级博士生Qucheng Peng,为大家着重分享他们团队的工作:NavigScene。如果您有相关工作需要分享,欢迎联系微信:cv3d009,请备注:姓名/昵称+工作名称,则不予通过。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
导航
more
同济大学最新!多模态感知具身导航全面综述
用眼镜导航是一种什么体验?Rokid Glasses让AI看得见
VLFly:基于开放词汇目标理解的无人机视觉语言导航
潮讯:鸿蒙版《原神》开始测试;红米双旗舰卖爆了;马斯克将发布Grok4模型;华为Pura80支持长隧道车道级导航定位
一张图像就能导航?NWM模型带来精准轨迹预测!
机器人导航的2个模块:视觉语言导航和目标导航有什么区别?
两部门出台《方案》:开展低空航空器等关键共性计量技术研究,攻克低空航空器智能感知、定位导航、能源动力等关键参数测量校准技术
正式开课啦!具身智能目标导航算法与实战教程来了~
清华RAL'25开源 | VR-Robo:通过3DGS实现机器人视觉运动与导航!
我在哪?要去哪?要怎么去?字节跳动提出Astra双模型架构助力机器人自由导航
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号