【源头活水】TPAMI 2025 | 骨架动作理解大一统:东南大学等提出USDRL,一个面向密集表征学习的基础模型

人工智能前沿讲习 2025-08-25 18:00


沿广注!

资讯配图

研究背景与意义

基于骨架的人体动作理解是具身智能、人机交互和运动分析等领域的核心技术。骨架数据因其轻量、高效且保护隐私的特性而备受青睐。然而,现有的方法大多存在以下问题:

  1. 缺乏通用性: 多数模型为特定任务设计,难以泛化到多样的动作理解任务中。
  2. 忽视密集预测: 以往工作主要集中在粗粒度的动作识别(对已分割的视频分类),而对更符合现实场景的密集预测任务,如时序动作检测(从长视频中定位动作起止)、动作分割(对每一帧进行分类)和动作预测(根据部分观测预测未来动作)等关注不足。
资讯配图
基于骨架的动作理解的密集预测任务
资讯配图
基于对比学习、基于掩码序列建模和基于特征去相关的自监督骨架表示学习范式的比较

因此,构建一个能够统一处理各类任务、学习有效密集表征、并且高效易用的骨架动作理解基础模型,是当前领域亟待解决的挑战。


USDRL:统一骨架密集表征学习框架

为应对上述挑战,研究者们提出了USDRL框架。其核心思想是利用特征去相关(Feature Decorrelation)的自监督范式,学习高质量的时空密集表征。整个框架主要由三大核心模块构成:密集时空编码器(DSTE)、多粒度特征去相关(MG-FD)和多视角一致性训练(MPCT)。

资讯配图

密集时空编码器 (DSTE)

DSTE是模型的主干网络,它采用并行的双流架构,分别用于捕捉骨架序列的时间动态特征和空间结构特征。与传统的Transformer不同,DSTE的每一层都集成了两个创新的模块:

这两个模块的加权组合使得DSTE能够有效地建模时空信息,为生成高质量的密集表征奠定基础。

资讯配图

多粒度特征去相关 (MG-FD)

MG-FD是USDRL自监督学习的核心。它摒弃了传统对比学习对负样本的依赖,通过最小化特征维度之间的冗余来防止模型坍塌,从而学习到信息量更丰富的表征。具体来说,MG-FD在三个粒度上进行特征去相关:

通过这种多粒度的设计,模型能够学习到既具有判别性又不过于冗余的特征。

多视角一致性训练 (MPCT)

为了进一步提升模型的鲁棒性和泛化能力,研究者引入了MPCT策略。该策略包含两个方面:


实验结果与分析

论文在 9大类任务、25个基准数据集 上对USDRL进行了极为广泛和全面的评估,覆盖了粗粒度预测、密集预测和迁移预测三大类场景。

粗粒度预测任务(无监督识别与检索)

在NTU-60、NTU-120和PKU-MMD II等主流数据集上,USDRL在无监督动作识别任务中全面超越了以往的所有方法,包括基于对比学习、掩码建模和混合学习的SOTA模型。值得注意的是,仅使用单一模态(Joint)的USDRL性能就超过了使用三种模态(J+M+B)的先前最佳方法UmURL。

资讯配图

在半监督动作识别任务上,仅使用1%和10%的随机采样标注训练数据进行全模型微调,证实了所提出方法具有强大的泛化能力,在半监督动作识别任务中展现出竞争优势。

资讯配图

除3D骨架动作识别外,还在2D骨架动作识别任务上评估了本方法。如下表所示,在极具挑战性的UAV-Human数据集上,本方法性能甚至超越部分全监督训练方法。

资讯配图

在半监督和动作检索任务上,USDRL同样展现出强大的性能,证明了其学习到的表征具有优越的泛化性和判别力。

资讯配图

密集预测任务(检测、分割、预测)

这是本次研究的重点。在时序动作检测任务上,USDRL在PKU-MMD I数据集上取得了SOTA性能,其mAPa指标达到了 75.7%,远超之前的方法。

资讯配图

在动作预测、动作分割任务中,仍展现出竞争优势。

资讯配图

下面的可视化结果也直观地展示了USDRL(使用DSTE主干)相比于基线模型(STTR)在动作检测上具有更高的准确率和更精确的定位(更高的IoU)。

资讯配图

在动作预测任务上,USDRL仅需观测到 30% 的动作序列,就能准确识别大多数动作,展现了在现实场景中进行早期动作识别的巨大潜力。

资讯配图

消融实验与可视化

消融研究证实了MG-FD和MPCT中每个组件的有效性。特征可视化分析(下图)清晰地表明,相比于传统对比学习,USDRL所学习到的特征在类别间具有更好的可分性,形成了清晰的簇状结构,证明了特征去相关范式的优越性。

资讯配图

论文贡献与价值

CV君认为,这篇论文的贡献是多方面的,对学术界和工业界都具有重要的参考价值:

  1. 提出首个骨架动作理解基础模型: 论文首次明确提出并构建了一个面向通用骨架动作理解的基础模型USDRL,填补了该领域的空白。它为处理多样化、特别是密集预测任务提供了一个强大而统一的基线。
  2. 创新的自监督学习范式: 提出的多粒度特征去相关(MG-FD)是一种高效且有效的自监督学习方法,它摆脱了对负样本和复杂网络设计的依赖,为表征学习提供了新的思路。
  3. 推动密集预测任务的研究: 论文通过大量的实验和出色的结果,有力地证明了密集表征学习的重要性,有望引导社区将研究重心从传统的动作识别更多地转向更具挑战和实用价值的密集预测任务。
  4. 提供高质量的开源代码: 作者开源了他们的代码,这将极大地便利后续研究者在此基础上进行复现、改进和扩展,从而推动整个领域的快速发展。

总而言之,这项工作不仅在技术上取得了突破,更重要的是为基于骨架的人体动作理解研究描绘了新的蓝图,指明了构建通用基础模型这一未来方向。

资讯配图

资讯配图

击呗!

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号