点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0.这篇文章干了啥?
这篇文章题为“CST Anti-UAV: A Thermal Infrared Benchmark for Tiny UAV Tracking in Complex Scenes”,提出了一个名为CST Anti-UAV的热红外数据集,专门用于复杂场景下微小无人机的单目标跟踪任务。随着无人机的广泛应用,公共安全和隐私问题凸显,现有的无人机跟踪数据集存在目标不显著、场景复杂度和属性表示缺乏多样性等问题,难以适用于现实场景。为解决这些问题,作者构建了CST Anti-UAV数据集,该数据集包含220个视频序列和超过24万个高质量边界框注释,具有大量微小尺寸的无人机目标和多样复杂的场景这两个关键特性,且是首个包含完整手动帧级属性注释的数据集,可在各种挑战下进行精确评估。作者对20种现有的单目标跟踪方法在该数据集上进行了评估,实验结果表明,在复杂环境中跟踪微小无人机仍是一项挑战,现有方法在CST Anti-UAV数据集上的性能明显下降,如SiamDT的状态准确率从Anti-UAV410数据集上的67.69%降至35.84%,GlobalTrack从66.42%降至35.92%,这凸显了现有基准的局限性以及无人机跟踪研究进一步发展的必要性。CST Anti-UAV数据集即将公开发布,有望促进更强大的单目标跟踪方法的发展和反无人机系统的创新。
下面一起来阅读一下这项工作~
1. 论文信息
论文题目:CST Anti-UAV: A Thermal Infrared Benchmark for Tiny UAV Tracking in Complex Scenes 作者:Bin Xie, Congxuan Zhang, Fagan Wang等 作者机构:Nanchang Hangkong University, Nanchang, China;Beihang University, Beijing, China;Chinese Academy of Sciences, Beijing, China 论文链接:https://arxiv.org/pdf/2507.23473v1
2. 摘要
无人机(UAV)的广泛应用引发了严重的公共安全和隐私问题,使得无人机感知对于反无人机任务至关重要。然而,现有的无人机跟踪数据集主要以显著目标为主,在场景复杂性和属性表示方面缺乏多样性,限制了它们在现实场景中的适用性。为克服这些局限,我们推出了CST Anti - UAV,这是一个专门为复杂场景下微小无人机单目标跟踪(SOT)设计的新型热红外数据集。它包含220个视频序列,有超过24万个高质量的边界框标注,突出了两个关键特性:大量微小尺寸的无人机目标以及多样且复杂的场景。据我们所知,CST Anti - UAV是首个包含完整的手动逐帧属性标注的数据集,能够在各种不同挑战下进行精确评估。为了对CST Anti - UAV进行深入的性能分析,我们在该数据集上对20种现有的单目标跟踪方法进行了评估。实验结果表明,在复杂环境中跟踪微小无人机仍然是一项挑战,因为最先进的方法在该数据集上的状态准确率仅为35.92%,远低于在Anti - UAV410数据集上观察到的67.69%。这些发现凸显了现有基准的局限性以及无人机跟踪研究进一步发展的必要性。CST Anti - UAV基准即将公开发布,这不仅将促进更强大的单目标跟踪方法的发展,还将推动反无人机系统的创新。

3. 效果展示
CST 反无人机数据集中序列剪辑的示例。无人机用红色边框标注。CST 反无人机数据集最显著的特点是场景复杂,如底部所示,包括遮挡(C)、复杂的动态背景(D)、尺度变化(S)、热交叉(T)以及超出视野(V)。背景包括建筑物(B)和城市区域(U)。

4. 主要贡献
提出了CST Anti - UAV,这是一个专门为无人机跟踪定制的大规模热红外数据集。该数据集具有小尺寸目标和复杂场景的特点,旨在推动反无人机研究的进展。推荐课程:零基础入门四旋翼建模与控制(MATLAB仿真)[理论+实战]。 据作者所知,CST Anti - UAV是首个提供完整手动帧级属性注释的数据集,能够在各种具有挑战性的条件下对现有方法进行细粒度评估。 为了对CST Anti - UAV进行全面的实验分析,作者对一系列当前的跟踪方法进行了基准测试,为未来单目标跟踪(SOT)的发展方向提供了重要见解。
5. 基本原理是啥?
提出CST Anti - UAV数据集的动机
现有无人机跟踪数据集存在目标显著但场景复杂度和属性表示缺乏多样性的问题,在现实场景中适用性受限。具体表现为: 缺乏足够数量的微小无人机目标用于有效训练; 背景简单,无法反映真实跟踪场景的复杂性; 帧级属性注释不完整,阻碍了对跟踪方法的全面评估。
CST Anti - UAV数据集的特点
大量微小尺寸目标:将目标尺寸按边界框对角线长度分为四类,数据集包含78,224个微小目标,是现有大型数据集的4.5倍,充足的样本量保证了鲁棒的训练性能。 复杂跟踪场景的多样性:引入复杂动态背景(CDB)属性,背景包含众多动态干扰因素。通过一年的数据采集,涵盖近距离、远距离、接近和远离等运动轨迹,以及城市、建筑、山脉、天空等多样场景,还包含季节变化、光照条件变化和极端天气条件,这些复杂背景和显著的天气或温度变化对训练鲁棒的无人机跟踪方法至关重要。 帧级注释的完整性:对所有帧的6个属性进行手动帧级注释,共1440k条注释。与现有序列级注释不同,帧级注释能精确揭示跟踪器对不同挑战的响应,为未来研究提供更准确的指导。
CST Anti - UAV数据集的构建方法
数据采集与分析 采用旋转平台和配备红外摄像机的专业无人机进行数据采集,获取220个序列,超过240k高质量边界框,序列长度从600到2,062帧不等,涵盖短期和长期跟踪场景。 分析目标尺寸分布,小尺寸和微小尺寸目标占主导,且微小目标数量远超现有数据集。同时涵盖丰富复杂的真实场景,包括多种运动模式、多样场景、季节和光照变化以及极端天气,背景包含多种动态干扰因素。 总结数据集中的挑战为六个属性,即遮挡(OC)、出视野(OV)、尺度变化(SV)、热交叉(TC)、动态背景杂波(DBC)和复杂动态背景(CDB),并首次提出CDB概念。与现有数据集相比,多数属性数量显著增加,且首次引入全帧级属性注释。 高质量人工注释 对收集的视频进行审核和编辑,减少不适当帧,得到超过240k帧。 注释过程分为两个轨道:边界框注释由注释团队手动为每帧获取高质量边界框,验证团队逐帧检查;属性注释由单个专家注释器处理,确保对六个挑战属性评估的一致性,共注释1440k个属性和220×6个序列级属性。 数据集划分:为实现跟踪方法评估的公平比较和防止过拟合,将数据集分为训练集(120个序列)、验证集(40个序列)和测试集(60个序列),各子集涵盖所有场景类别和目标尺寸范围,挑战分布均衡,测试集严格独立,训练集和验证集来自非重叠的共享序列剪辑。
6. 实验结果
整体性能
在CST Anti - UAV数据集上,现有跟踪器性能显著下降,如SiamDT的状态准确率从Anti - UAV410的67.69%降至35.84%,GlobalTrack从66.42%降至35.92%。这表明复杂背景和微小目标使跟踪变得困难,不仅是静态图像中的问题,还涉及目标在时间域中的消失和再现。 SiamDT和GlobalTrack在两个数据集上均名列前茅,说明基于长期跟踪的跟踪器有更好的性能潜力,因其在全图像搜索,能获取目标消失后的再现位置。 有效利用时间信息可提升性能,如Stark - ST通过添加动态模板捕获目标的时间变化,性能得到改善。 较大搜索区域对微小目标跟踪影响有限,OSTrack - 384和ARTrack - 384在Anti - UAV410上性能提升,但在CST Anti - UAV上效果不佳,因为微小目标在图像中像素少,网络难以有效利用语义表示能力。
数据集难度
在Anti - UAV410上训练的跟踪器在CST Anti - UAV测试集上性能严重下降,表明现有数据集缺乏多样性和复杂性,无法应对CST Anti - UAV的挑战。 多数跟踪器性能提升超过10%,最高达30.3%,说明当前数据集不足以代表微小无人机感知,需要像CST Anti - UAV这样复杂多样的数据集推动该领域发展。
粗到细属性评估
帧级评估比序列级评估更能反映真实变化,序列级评估波动小,因为序列内并非所有帧都有挑战性条件。帧级属性注释为提高跟踪器性能提供了有价值的指导和可操作的见解。 在复杂场景和微小目标跟踪中,当前跟踪器面临挑战,如DBC、TC、CDB、OV属性和微小目标的跟踪性能显著下降。OV属性表现出双峰分布,突出了目标重新定位的重要性。 在复杂场景和微小目标跟踪中,基于CST Anti - UAV训练集的跟踪器性能有显著提升。对于正常和大目标,多数跟踪器性能与基于Anti - UAV410训练的跟踪器相当或略低。 不同跟踪器表现: GlobalTrack和SiamDT在各属性和目标尺度上表现良好,但在微小目标上性能下降,因其全局搜索模块引入更多背景噪声。 KYS在跟踪OV属性和微小目标上表现出色,通过密集局部状态向量和预测模块传播场景信息。 PrDiMP在遮挡、OV和复杂动态背景等挑战上表现强劲,在微小目标跟踪上达到了先进水平,它结合概率回归和DiMP提供目标位置的概率分布预测。
少量大规模物体的影响
CST Anti - UAV数据集仅用837个大规模物体和11208个正常尺寸物体,在Anti - UAV410测试集上取得了与Anti - UAV410相当的成功率和准确率,验证了该数据集的有效性,表明较少的大而突出的物体足以实现良好性能。





7. 总结 & 未来工作
总结
本文介绍了CST Anti - UAV数据集,这是一个专门为无人机跟踪设计的大规模热红外基准数据集。它包含220个视频,有超过24万个带注释的边界框,数据采集涵盖了不同环境、时段和天气条件。CST Anti - UAV数据集的主要贡献在于关注现有数据集中代表性不足的微小无人机目标,并纳入了跨越城市和荒野环境的多方面跟踪场景,确保了强大的泛化能力。值得注意的是,它是首个包含完全手动逐帧属性注释的无人机跟踪数据集。
为验证其有效性,作者在CST Anti - UAV数据集和现有的最大反无人机跟踪数据集上重新训练了20种最新的单目标跟踪(SOT)方法,并进行了广泛实验。结果表明,这些方法在该数据集上的性能显著下降,即使是最先进的方法在复杂动态背景下跟踪微小且不显眼的目标时也面临困难,这凸显了CST Anti - UAV数据集对于改进当前无人机跟踪方法的重要性。
未来与展望
作者认为CST Anti - UAV基准数据集将激发更强大的无人机跟踪方法的开发,并加速可靠的基于视觉的反无人机系统在现实世界中的部署。
3D视觉硬件,官网:www.3dcver.com
3D视觉学习圈子
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!