ICCV 2025 Highlight | 清华等提出CoopTrack:“端到端协同跟踪”新范式,开启自动驾驶感知新篇章

3D视觉工坊 2025-09-05 07:00

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:我爱计算机视觉,作者:CV君

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

资讯配图

本文分享一篇被计算机视觉顶级会议 ICCV 2025 评为 Highlight 的重磅论文——《CoopTrack: Exploring End-to-End Learning for Efficient Cooperative Sequential Perception》。该研究由清华大学、香港理工大学、香港大学及百度公司的学者共同完成,提出了一种名为 CoopTrack 的端到端协同3D多目标跟踪框架。它从根本上改变了现有方法,通过可学习的实例关联机制,在大幅提升跟踪精度的同时,有效控制了通信成本,在V2X-Seq数据集上实现了 39.0% mAP 和 32.8% AMOTA 的当前最佳性能(SOTA)。


资讯配图


01

研究背景与意义


单车智能是当前自动驾驶的主流路线,但它存在固有的“视界”局限性,例如在十字路口、恶劣天气或被大型车辆遮挡时,感知能力会严重下降。协同感知(Cooperative Perception)技术应运而生,它通过车与车(V2V)、车与路侧设施(V2I)之间的信息共享,为自动驾驶系统打开“上帝视角”,有效克服单车感知的不足。


然而,以往的协同感知研究大多集中在单帧感知任务上,如协同3D目标检测。对于更复杂、在时序上连续的协同3D多目标跟踪(Cooperative 3D Multi-Object Tracking)任务,探索尚不充分。现有的跟踪方法通常遵循“先协同检测,后进行跟踪”的非端到端模式,这种模式流程繁琐,且检测和跟踪任务分离会导致次优解。虽然有少数端到端的方法被提出,但它们依赖于基于规则的实例关联,鲁棒性和适应性不足。


资讯配图
与当前合作感知的比较



02

主要研究内容与方法


CoopTrack是一个完全基于实例级别(instance-level)的端到端协同跟踪框架。其核心创新在于,它不再传输和融合庞大的原始数据或中间特征图,而是让每个智能体(车辆或路侧单元)独立解码出稀疏的实例级特征,然后仅将这些轻量级的特征进行传输和融合。这极大地降低了对通信带宽的要求。


资讯配图


上图对比了不同方法在性能和传输成本上的表现,CoopTrack在实现最高检测和跟踪性能的同时,保持了极低的传输成本(气泡尺寸代表传输成本)。


CoopTrack的整体框架如下图所示,主要由两大核心组件构成:


资讯配图


1. 多维特征提取 (Multi-Dimensional Feature Extraction, MDFE)


这个模块负责从每个智能体的传感器数据中提取全面的实例表示。它不仅仅关注目标的语义信息(是什么),还通过一个时间Transformer模块融入历史信息,提取目标的运动特征(怎么动)。这种包含语义和运动的多维特征为后续的跨智能体关联提供了丰富线索。


资讯配图


2. 跨智能体关联与聚合 (Cross-Agent Association and Aggregation)


这是CoopTrack的灵魂所在,负责将来自不同智能体的实例特征进行智能匹配和融合。


资讯配图

03

实验设计与结果分析


研究团队在两个大规模协同感知数据集V2X-Seq和Griffin上对CoopTrack进行了全面评估。


在V2X-Seq数据集上,CoopTrack在所有关键指标上都取得了SOTA(State-of-the-Art)性能,mAP和AMOTA分别达到了 39.0% 和 32.8%,显著超越了之前所有的方法。


资讯配图


在更为复杂的Griffin数据集上,CoopTrack同样表现出色,验证了其强大的泛化能力。


资讯配图


消融实验也充分证明了框架中每个设计模块的必要性。移除MDFE、CAA或GBA中任何一个,都会导致性能的明显下降,这突显了多维特征提取和可学习的跨智能体关联机制的重要性。


资讯配图

04

论文贡献与价值


CoopTrack的提出,为协同感知领域,特别是协同时序感知任务,带来了里程碑式的进展:


  1. 提出首个完全实例级的端到端协同跟踪框架CoopTrack通过创新的“解码后融合”架构,实现了真正意义上的端到端学习,简化了流程并提升了性能。
  2. 引入可学习的实例关联机制基于图的关联模块(GBA)是该框架的核心,它用数据驱动的方式替代了传统的基于规则的关联方法,更加鲁棒和高效。
  3. 兼顾高性能与低通信成本通过只传输稀疏的实例级特征,CoopTrack在实现SOTA性能的同时,将通信开销保持在极低水平,为实际部署提供了可能。
  4. 推动领域发展作为ICCV 2025的Highlight论文,CoopTrack为协同时序感知任务树立了新的标杆,其即将开源的代码将极大地推动社区在这一方向上的后续研究。

总而言之,CoopTrack不仅是一个性能卓越的算法,也是一种全新的、极具启发性的协同感知设计哲学,为实现更安全、更高效的自动驾驶系统铺平了道路。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉1V1论文辅导来啦!

资讯配图

3D视觉学习圈子

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

资讯配图

3D视觉全栈学习课程:www.3dcver.com

资讯配图

3D视觉交流群成立啦,微信:cv3d001

资讯配图

添加微信:cv3d001,备注:方向+单位,邀你入3D视觉交流群!

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IC
more
刚刚,Anthropic在质疑声中获130亿美元融资,估值达1830亿
ICCV'25开源 | 无惧遮挡和模糊!MVTracker:跟踪任意3D点!(ETH & CMU & 微软)
NexusPickit-S1!从零搭建一套无序抓取平台[硬件+源码+课程]
荣耀Magic 8卫通版通过认证,支持90W快充
结合3D高斯与生成模型!清华联合BIGAI提出机器人操作世界模型GWM | ICCV 2025
【半导体】ASIC芯片,大爆发
【投融资】26岁斯坦福校友获Databricks之父背书,PlayerZero获A轮融资1500万美金,筑AI代码“免疫防线”
日本evtol开发商SkyDrive 宣布与 DUC Hélices Propellers 合作开发eVTOL SD-05
又一万亿AI独角兽,Anthropic再获130亿美元融资,估值达1830亿美元
自搜索强化学习SSRL:Agentic RL的Sim2Real时刻
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号