点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息
标题:NOOUGAT: Towards Unified Online and Offline Multi-Object Tracking
作者:Benjamin Missaoui, Orcun Cetintas, Guillem Brasó, Tim Meinhardt, Laura Leal-Taixé
机构:NVIDIA、Technical University of Munich
原文链接:https://arxiv.org/abs/2509.02111
1. 导读
在线和离线多目标跟踪(MOT)之间长期存在的分歧导致了解决方案的碎片化,这些方案无法应对现实部署场景中灵活的时序要求。当前的在线跟踪器依赖于逐帧的手工制作关联策略,并且在处理长期遮挡时存在困难;而离线方法虽然可以覆盖更大的时间间隔,但仍依赖于启发式拼接技术来处理任意长度的序列。本文中,我们介绍了NOOUGAT,这是首个设计用于处理任意时序范围的目标跟踪器。NOOUGAT利用一个统一的图形神经网络(GNN)框架,处理不重叠的子剪辑,并通过一个新的自回归长期跟踪(ALT)层融合它们。子剪辑大小控制延迟和时间上下文之间的权衡,支持广泛的部署场景,从逐帧到批处理。NOOUGAT在两种跟踪制度上都实现了最先进的性能,在线AssA在 DanceTrack上提高了 +2.3,在 SportsMOT 上提高了 +9.2,在 MOT20 上提高了 +5.0,在离线模式下获得了更大的收益。
2. 效果展示
(a) 使用启发式匹配的在线跟踪器。 (b)使用启发式方法拼接重叠子片段的离线跟踪器。(c)我们的NOOUGAT架构消除了匹配和拼接启发式方法的需求,并将在线和离线功能统一到一个灵活的整体框架中。

3. 引言
多目标跟踪(Multi-Object Tracking,MOT)旨在检测目标,并在不同帧之间将它们关联起来,以形成连贯的轨迹。对于许多现实世界系统而言,这是一项至关重要的任务,然而,并非所有的跟踪应用都有相同的要求。例如,自动驾驶需要在线处理,即必须仅使用过去的信息逐帧做出决策。相比之下,像数据集标注或事后视频分析这类任务可以离线执行,允许利用未来信息来处理遮挡并解决身份切换问题。这种内在的差异促使人们为每种场景开发专门的模型。
在在线跟踪中,尽管许多研究尝试设计更好的运动和重识别(ReID)模型,但关联模块在很大程度上仍由启发式方法驱动,往往采用复杂的手工设计的多阶段级联策略。这为更基于原则的、可学习的解决方案留下了空间。
此外,尽管端到端(End-to-End,E2E)方法最近受到关注,但由于它们联合学习目标检测和跟踪,所以在数据量较少的情况下,它们往往需要大量资源且性能不佳。相反,离线方法越来越多地采用可学习的方法,图神经网络(Graph Neural Networks,GNNs)通过直接从数据中学习关联关系,展现出了强大的性能。然而,这些方法通常假设可以一次性处理整个序列,这一假设对于任意长度的视频并不成立。在这种情况下,仍然需要启发式的拼接方法来连接来自重叠子片段的轨迹。推荐课程:零基础入门四旋翼建模与控制(MATLAB仿真)[理论+实战]。
在本文中,我们对这些独立模型和启发式方法的需求提出质疑,并设计了一种统一的方法,旨在满足任何现实部署场景的时间要求。我们提出了NOOUGAT,一种用于跟踪的灵活神经在线和离线统一图架构。我们首先将输入序列划分为不重叠的子片段,然后使用受离线跟踪器SUSHI启发的GNN层次结构,独立地为每个子片段生成局部轨迹。接着,我们使用新的自回归长期跟踪(Autoregressive Long-term Tracking,ALT)层将这些局部轨迹融合为全局轨迹。子片段大小是一个可调的超参数,用于控制处理步长:将其设置为可实现逐帧跟踪——类似于在线跟踪器,而较大的值则允许为允许此操作的应用程序进行更丰富的时序推理。
例如,对于30帧/秒(FPS)的输入流,每33毫秒到达一帧新图像。在自动驾驶等对延迟要求极高的应用中,感知系统必须在100毫秒内做出响应,这就要求跟踪器在每帧到达时立即生成输出。相比之下,空中飞行器跟踪系统通常以1–2 FPS的速度运行,允许系统在执行推理前累积15到30帧。这些额外的帧提供了宝贵的时间上下文,使得能够更稳健地处理遮挡并做出更明智的决策。最后,在像数据集标注或体育分析这类完全离线的任务中,延迟不是限制因素,跟踪器可以一次性处理数百帧以最大化精度。NOOUGAT通过设计支持所有这些场景:它可以处理任意数量的传入帧,并且性能稳步提升。这使得NOOUGAT成为一种多功能解决方案,能够适应各种现实世界应用的时间要求。
我们设计的核心是ALT层,它是一个完全可学习的、数据驱动的关联模块。ALT是一个GNN层,它构建一个图来将历史轨迹与传入轨迹连接起来。在推理时,它以自回归的方式应用于任意长序列的目标跟踪。与依赖手工设计的匹配和拼接启发式方法的传统方法不同,ALT联合学习这两种操作,能够适应各种跟踪场景中最相关的线索。此外,由于我们的设计和训练方法,我们观察到ALT自然能够处理长时间遮挡,这是当前在线方法面临的一个持续挑战。与ALT层一起,NOOUGAT在一个统一且灵活的框架中提供了最先进的在线和离线关联性能,能够适应几乎任何应用。

4. 主要贡献
我们的贡献如下:
• 我们提出了NOOUGAT,这是第一个满足各种部署场景延迟要求的跟踪架构。通过统一的形式化表示,我们消除了现有在线和离线跟踪器中常用的匹配和拼接启发式方法的需求,从而弥合了该领域长期存在的分歧。
• 我们引入了ALT层,这是一个完全可学习的、数据驱动的GNN关联模块,它利用各种时间上下文中最相关的线索来动态执行稳健的关联。
• 与当前的在线和离线跟踪器相比,我们在四个基准测试上显著超越了最先进的水平,证明了在各种场景中的有效性,包括数据量较少的情况和长时间遮挡的情况。我们还提供了详细的消融实验,验证了我们方法的灵活性。
5. 方法
NOOUGAT是一个统一且灵活的多目标跟踪(MOT)框架,能够适应广泛的应用要求。为了处理一个序列,NOOUGAT首先将其划分为大小为T的不重叠子片段。得益于GNN层次结构,我们独立地获取每个子片段的轨迹片段。然后,我们的核心组件ALT层以自回归的方式连接来自这些子片段的轨迹片段,以获得全局的、序列长度的轨迹。在第一次迭代中,合并前两个子片段的轨迹片段。然后,ALT将它们与下一个子片段的轨迹片段相关联,重复此过程,直到覆盖整个序列。在任何给定的迭代中,我们将先前合并的子片段的轨迹和帧分别称为过去轨迹和过去帧,将下一个子片段的轨迹片段和帧分别称为传入轨迹和传入帧。我们架构中的一个关键设计参数是子片段大小T,它决定了处理步长。当T=1时,在每次迭代中,NOOUGAT将过去轨迹与传入帧中的检测结果合并,从而表现得像一个在线跟踪器。增加T可以联合处理更多的传入帧,从而提供更丰富的时间上下文和更强的性能。得益于这种设计,我们能够提供一个模型,该模型可以为广泛的应用最大化性能。我们的架构如图3所示。

6. 实验结果


7. 总结 & 未来工作
在本研究中,我们提出了NOOUGAT,这是第一个旨在灵活适应各种应用约束和部署场景的跟踪器。我们的实验表明,与现有的在线和离线方法相比,我们的方法有持续的改进,并且我们的消融实验突出了可学习关联相对于启发式匹配和拼接的优势——特别是在从长时间遮挡中恢复方面。我们希望这项工作能够激励社区重新思考在线和离线跟踪之间的传统分离,并鼓励向更多面向应用的跟踪方法转变。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
3D视觉1V1论文辅导来啦!
3D视觉学习圈子
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!