TPAMI 2025开源| PointGST:参数量仅0.67%,精度首破99%,三维点云处理迎来谱域新范式!

3D视觉工坊 2025-09-07 00:00

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:我爱计算机视觉

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

资讯配图


近年来,大规模点云预训练模型已成为3D视觉领域的基石,但其巨大的模型体积和高昂的微调成本,正逐渐成为研究和应用落地的一大瓶颈。如何在保持卓越性能的同时,将微调的“开销”降到最低?

近日,一项已被计算机视觉顶刊 IEEE TPAMI 接收的工作——PointGST (Point cloud Graph Spectral Tuning),为这一问题提供了全新的解决方案。这项由华中科技大学团队提出的全新参数高效微调(PEFT)方法,创新性地将视角落在了“谱域(Spectral Domain)”,仅用0.67%的可训练参数,就在ScanObjectNN数据集上,将分类精度首次突破99%,达到了惊人的99.48%,建立了全新的SOTA,几乎宣告了该数据集的性能饱和。此外,该方法还可泛化到点云分割,点云检测,甚至点云补全任务中,并取得优异表现。

资讯配图
  • 论文标题: Parameter-Efficient Fine-Tuning in Spectral Domain for Point Cloud Learning
  • 论文链接: https://ieeexplore.ieee.org/abstract/document/11106720/
  • 代码链接: https://github.com/jerryfeng2003/PointGST
资讯配图
图1 数据集上的性能和可训练参数的直观比较

一、 挑战:空间域微调的“迷雾”

预训练+微调(Pre-train, Fine-tune)已是当前AI领域的主流范式。然而,在点云领域,传统的完全微调(Full Fine-tuning)策略需要更新模型的所有参数,这不仅消耗海量的GPU显存和存储资源,也让模型的快速部署和迭代变得异常困难 。为了解决这个问题,学术界提出了多种参数高效微调(PEFT)方法 ,如IDPT、DAPT等 。这些方法通过冻结主干网络、仅训练少量可学习模块来降低成本 。然而,它们普遍存在一个核心局限:所有操作都在空间域(Spatial Domain)进行 。这会带来两大挑战:

  1. 特征混淆(Token Confusion):预训练模型学习的是通用知识,在面对下游具体任务时,从冻结模型中提取的特征可能会产生混淆 。例如,即使点云上两个几何结构相似的区域,其输出特征也可能差异巨大 ,这给后续的微调带来了困难。
  2. 内在信息缺失(Missing Intrinsic Information):下游任务点云自身独特的几何结构和拓扑关系(即内在信息)对于精准分析至关重要 。现有的PEFT方法很少能显式地利用这些宝贵信息 。
资讯配图
图2:现有空间域微调方法 vs. 该研究提出的谱域微调新范式

二、 破局:从“空间”到“谱域”的跃迁

面对空间域的瓶颈,该研究的作者团队敏锐地发现,谱域为解决上述问题提供了绝佳的思路 。

核心思想: 将点云特征从复杂的空间域,通过图傅里叶变换(GFT)转换到信息更纯粹、结构更清晰的谱域进行微调 。这就像处理一段嘈杂的音频信号,直接在时域(相当于空间域)上分析可能一团乱麻,但通过傅里叶变换到频域(相当于谱域)后,各种频率成分一目了然,处理起来就得心应手了。

资讯配图
图3 PointGST流程图

PointGST正是基于这一洞察,设计了轻量级的点云谱域适配器(PCSA) 。其工作流程可以概括为:

  1. 构图与谱分解:将下游任务的原始点云构建成多尺度的图,并通过拉普拉斯矩阵的特征分解,得到一组能够反映点云内在几何结构的正交谱基 。这组基是数据原生的,包含了任务的“先验知识”。
  2. 信号上图,谱域转换:将冻结的预训练模型输出的特征视为图上的信号 ,利用第一步得到的谱基,通过图傅里叶变换(GFT)将其投影到谱域 。
  3. 谱域微调:在谱域中,混淆的特征信号被正交的谱基自然地解耦(de-correlated) ,优化过程变得更加轻松高效。PCSA仅需一个共享线性层,就能在谱域上对特征进行精准适配 。
  4. 返回空间域:微调完成后,通过逆图傅里叶变换(iGFT)将特征送回空间域,与主干网络无缝衔接 。

通过这一系列操作,PointGST巧妙地利用正交性化解了特征混淆 ,并将下游点云数据的内在结构信息融入微调过程 ,实现了知识的高效、精准迁移。


三、 实验结果

PointGST的性能到底有多卓越?一表胜千言!

资讯配图
资讯配图

该研究在多个权威数据集和任务上进行了详尽的实验,结果全面超越了现有方法 :

  • 登顶性能之巅:在最具挑战性的ScanObjectNN数据集上,PointGST将PointGPT-L模型的精度从97.2%提升至98.97% (OBJ_BG),甚至在Voting设置下达到了99.48%,成为首个在该榜单上突破99%大关的方法 。在ModelNet40、ShapeNetPart等八个主流数据集上均取得了SOTA或极具竞争力的表现 。
  • 极致的参数效率:达到上述惊人性能,PointGST的可训练参数量仅为2.4M,占PointGPT-L(360.5M)完全微调参数的0.67% 。相比其他PEFT方法,PointGST在参数更少的情况下,性能依然遥遥领先 。
  • 卓越的泛化能力:PointGST被应用于Point-BERT、Point-MAE、ACT、RECON等多种不同结构和大小的预训练模型上,均表现出稳定且显著的性能提升。这解决了现有PEFT方法在不同模型上表现不一,甚至性能下降的痛点。
  • 数据高效,无惧小样本:在少样本学习场景下,PointGST同样表现出色。仅使用2%的训练数据,其性能就远超其他PEFT方法,展现了在数据稀缺场景下的巨大潜力 。
资讯配图
图4 小样本场景下,提升更为明显
资讯配图
图5:t-SNE特征可视化。相较于其他方法(c, d),PointGST(e)产生的特征簇间分离度更高,类别更清晰,证明了其强大的表征学习能力 。

四、 总结与展望

本文提出了一种名为PointGST的点云参数高效微调方法。通过将微调过程从传统的空间域转换到谱域,该方法能够有效缓解冻结模型中的特征混淆问题,并融入下游数据自身的内在结构信息。大量的实验结果表明,PointGST在显著降低微调成本的同时,可以在多项基准测试上取得具有竞争力的性能。

总体而言,这项工作为点云模型的参数高效微调探索了一条在谱域中进行的新路径,为解决大模型落地应用中的效率与性能平衡问题提供了一个有益的思路。希望该研究能为社区在3D视觉及相关领域的发展带来一些参考和启发。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉1V1论文辅导来啦!

资讯配图

3D视觉学习圈子

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

资讯配图

3D视觉全栈学习课程:www.3dcver.com

资讯配图

3D视觉交流群成立啦,微信:cv3d001

资讯配图

添加微信:cv3d001,备注:方向+单位,邀你入3D视觉交流群!

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
RLinf开源!首个面向具身智能“渲训推一体化”的大规模强化学习框架
又一国产多模态大模型开源,复杂声音一耳朵分辨,多测试SOTA,还能聊哲学
更懂国内APP的开源智能体!感知/定位/推理/中文能力全面提升,还能自己学会操作
双层开源、产学结合:百度AI这场高强度的师资培训有多硬核?
美团杀入开源大模型混战:LongCat登场,推理速度直破100 Token/s
清华崔鹏团队开源LimiX:首个结构化数据通用大模型,性能超越SOTA专用模型
80%美国AI初创靠中国开源模型“吃饭”!a16z投资人震惊,全球开源榜前16名全被中国包揽
腾讯开源智能体新框架:不用训练无需充值,用开源模型实现SOTA Agent
陶哲轩都惊了!o3首战「AI奥数」碾压夺冠,开源军团仅差5分狂追OpenAI
字节开源图像生成“六边形战士”,一个模型搞定人物/主体/风格保持
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号