延迟小于10 ms！英伟达新作MV3DT：实时多视角3D跟踪，支持100个相机一起跑！

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

星球内有20多门3D视觉系统课程、3DGS独家系列视频教程、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研，欢迎加入！延迟小于10 ms！英伟达新作MV3DT：实时多视角3D跟踪，支持100个相机一起跑！图1

论文信息

标题：Fully Distributed Multi-View 3D Tracking in Real-Time

作者：Byron Hernandez, Fangyu Li, Aotian Wu, Paul J. Shin, Kaustubh Purandare, Henry Medeiros

机构：University of Florida、NVIDIA Corporation

原文链接：https://arxiv.org/abs/2606.13127

导读

采用多摄像头进行跟踪时，由于各摄像头的视野存在重叠，通常需要通过中央处理节点来整合数据。但这种方式会导致计算效率低下，从而无法实现大规模应用。我们提出了MV3DT这一完全分布式框架，它能够实现实时多视角3D跟踪。该框架通过点对点协作的方式，精确地识别目标物体，并解决遮挡问题，从而无需中央处理节点的参与。每个摄像头节点都执行一套简单的处理流程，包括单目3D感知、多视角数据关联以及基于轻量级通信协议的协同处理。在WILDTRACK测试中，MV3DT的IDF1指标达到了96.5%，MOTA指标为93.1%，MOTP指标为94.6%，这些成绩与最先进的中央处理方式相当。而在SCOUT测试中，其IDF1指标达到了41.7%，MOTA指标为50.9%。此外，MV3DT还具有出色的扩展性：在100个摄像头的环境下，仍能保持30帧/秒的刷新率，摄像头间的延迟小于10毫秒，且通信开销仅为2.2%。MV3DT无需针对特定场景进行训练，只需进行摄像头标定即可直接应用于新环境中。这些成果表明，MV3DT是大规模多摄像头网络中实现实时多视角跟踪的理想解决方案。

效果展示

从遮挡检测中复原的全身约束框及脚部定位:(左)圆柱模型在预期腰点pwaist处的投影效果;(中)用于复原全身的投影圆柱的凸包(右)根据顶边缘比较结果对投影进行调整后以处理遮挡情况。

延迟小于10 ms！英伟达新作MV3DT：实时多视角3D跟踪，支持100个相机一起跑！图2

MV3DT轨迹生命周期与恢复逻辑。轨迹最初为“暂定”状态，经过一段较短的试用期且匹配情况稳定后会被提升至“活跃”状态，而当检测出现遗漏时则会退回到“inactive”状态以进行影子追踪。 “准活跃”表示由同行摄像机确认的目标，从而实现了多视角的连续性;而“终止”则意味着旧轨迹的结束。

延迟小于10 ms！英伟达新作MV3DT：实时多视角3D跟踪，支持100个相机一起跑！图3

引言

多摄像机多目标跟踪（MCMT）是计算机视觉中的一个普遍问题。大规模应用如仓库监控和智慧城市需要数十到数千台摄像机才能有效覆盖感兴趣区域。AI City挑战赛参与度的不断增加反映出大规模MCMT日益增长的重要性。MCMT技术根据其执行进程和聚合数据的方式，可分为集中式、分散式或分布式。它们也可能关注具有重叠或非重叠视场（FOV）的摄像机拓扑结构。FOV重叠程度决定了利用多视图几何线索提高跟踪精度的可用性。另一方面，非重叠摄像机系统通常基于摄像机关联模型，使用外观表示和轨迹预测来实现有效跟踪。

集中式方法利用重叠摄像机设置，在单一融合阶段利用来自所有摄像机的全局信息，这可以提高精度，但将所有计算和通信集中在一个逻辑节点上。在大规模部署中，由于带宽、延迟和鲁棒性限制，这种集中式融合通常变得不切实际。许多分布式MCMT方法针对非重叠或稀疏重叠的摄像机拓扑，其中跨摄像机关联主要依赖于外观和时间约束。在这些设置中，摄像机通常在没有显式三维校准的情况下运行，主要通过标签和外观交换来维持一致性。当前针对重叠摄像机设置的分布式技术范式依赖于并行的单摄像机跟踪（SCT）过程，随后是集中式多摄像机聚合阶段。这种对中心实体的两阶段依赖阻碍了实时部署并限制了可扩展性。

重叠视场提供了互补的三维几何信息，减少了遮挡的影响，而遮挡是多目标跟踪中最具挑战性的问题之一。尽管集中式方法长期以来受益于重叠视场，但直接工作在三维地平面上的、并在固定、已校准的重叠摄像机网络上大规模展示的全分布式MCMT系统仍然稀缺。根本困难在于一种自相矛盾的需求：多视图几何线索能提高跟踪精度，但以分布式方式利用它们具有挑战性，并限制了精确多视图跟踪的可扩展性。

可扩展部署的主要挑战之一是计算资源的可用性。计算机和通信技术的进步使得更大的互联摄像机网络能够进行实时监控。与此同时，模型和算法的复杂性也成比例增长。因此，在大型摄像机网络中实时准确地跟踪多个目标，同时利用重叠视图，仍然是一个开放的挑战。最近的全分布式方法已经证明，点对点协调可以维持在线多摄像机跟踪，但它们主要工作在二维图像空间中，并未在大规模重叠摄像机网络中利用校准的三维地平面几何。

我们提出了一种全分布式MCMT框架，其中模块化流水线并行处理每个视频流，无需中心聚合器。每个摄像机节点执行一个流水线，包括数据关联、目标管理、运动估计、单目三维感知、摄像机间通信和分布式多视图融合等模块。该框架通过轻量级摄像机间通信实现多视图身份传播和三维融合，使得每个节点能够局部推理，同时跨重叠视图实现全局一致的关联。

主要贡献

我们的主要贡献如下：

– 一种面向已校准重叠摄像机的全分布式多视图三维跟踪框架，其中每个节点执行局部三维跟踪、点对点身份传播和多视图融合，无需中心聚合服务器。

– 一种遮挡感知的单目三维检测器，其机制能将噪声单视图检测转化为可靠的多视图测量。

– 一个三阶段分布式身份传播协议，确保无需中心节点的全局身份收敛。

– 在标准基准上的大规模评估，达到最先进的精度，并测量了通信开销和同步部署。

方法

MV3DT引入了一种新颖的全分布式模块化MCMT范式。我们的框架旨在为多摄像机上的多目标跟踪提供实时、在线且精确的流水线；遮挡处理和可扩展性是关键目标。在理念上与相关研究类似，我们在全三维环境下利用来自多个视图的同时信息。我们使用轻量级点对点通信策略来共享多视图信息并实时解决跟踪歧义。我们的方法没有采用集中式多视图跟踪机制或聚合多个单视图跟踪器的结果，而是将每个摄像机视为一个独立的智能体。因此，它可以实例化为一个与通信网络内其他摄像机通信的单一进程。本节描述了核心组件：检测、数据关联、目标管理、多视图融合和通信。

延迟小于10 ms！英伟达新作MV3DT：实时多视角3D跟踪，支持100个相机一起跑！图4

实验结果

表1比较了MV3DT与近期最先进的多视图跟踪方法在WILDTRACK上的表现。MV3DT在27 FPS下实现了96.5%的IDF1、93.1%的MOTA和94.6%的MOTP，追平了最佳报告的IDF1，同时取得了最高的MOTP。虽然UMPN和MVTrajecter取得了略高的MOTA，但它们依赖于学习的、场景特定的模型。MV3DT以微小的MOTA损失换取了可部署性、可扩展性和实时吞吐量。

延迟小于10 ms！英伟达新作MV3DT：实时多视角3D跟踪，支持100个相机一起跑！图5

表2展示了在SCOUT数据集已标注子集（8个标注摄像机）上的结果，采用50%的训练/测试分割。MV3DT在使用PNT时，以+14.7 IDF1、+25.9 MOTA和+19.3 MOTP百分点的优势超越了基线（UMPN+SP）。使用PN3检测器时，MV3DT还展示了扩展能力：吞吐量更高，且精度仍优于UMPN。

MV3DT弥补了多摄像机跟踪中的一个关键空白：需要无需场景特定训练或针对不同摄像机配置重新训练的实时、可扩展系统。不同于UMPN、BEV-SUSHI和MVTrajecter等基于学习的方法，MV3DT是一种零样本方法，仅需要摄像机校准。大多数竞争方法在不重新训练的情况下无法部署到不同的摄像机配置，这实际上将解决方案锁定在其训练几何结构上。

延迟小于10 ms！英伟达新作MV3DT：实时多视角3D跟踪，支持100个相机一起跑！图6

总结 & 未来工作

我们的实验表明，MV3DT在WILDTRACK、SCOUT和AI City 2024仓库场景中实现了有竞争力的精度，同时提供了卓越的可扩展性。在100台摄像机的仓库设置中，MV3DT保持30 FPS，平均摄像机间延迟为5毫秒，通信开销仅为2.2%。在SCOUT（8台摄像机）上，根据检测器的不同，帧率达到28–55 FPS，而UMPN仅为2 FPS。通过增加更多节点和摄像机进行横向扩展的能力正是架构差异最关键之处。大多数方法要求所有摄像机共享单个GPU，因此吞吐量和内存限制使它们无法扩展到少数几台摄像机之外。相比之下，MV3DT专为分布式部署而设计：每个摄像机流在单独的进程（机器或GPU）中运行，节点仅通过轻量级消息传递（例如MQTT）进行通信。因此，扩展受限于网络带宽，而非GPU内存或计算能力。这使得MV3DT特别适用于仓库、机场和智慧城市中的大规模实际部署。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

。

延迟小于10 ms！英伟达新作MV3DT：实时多视角3D跟踪，支持100个相机一起跑！图7