CVPR'26开源|扩散模型不再是3D点云生成最优解?PointNSP提出「下一尺度预测」新范式

3D视觉工坊 2026-06-03 07:00

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

作者:孟子乔(一作) | 编辑:3D视觉工坊

星球内有20多门3D视觉系统课程、3DGS独家系列视频教程、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎加入!CVPR'26开源|扩散模型不再是3D点云生成最优解?PointNSP提出「下一尺度预测」新范式图1

0. 论文信息

标题:PointNSP: Autoregressive 3D Point Cloud Generation with Next-Scale Level-of-Detail Prediction

作者:Ziqiao Meng, Qichao Wang, Zhiyang Dou, Zixing Song, Zhipeng Zhou, Irwin King, Peilin Zhao

机构:新加坡国立大学,南洋理工大学,香港大学,剑桥大学,香港中文大学,上海交通大学

原文链接:https://arxiv.org/pdf/2503.08594

项目主页链接:https://pointnsp.pages.dev/

Github代码链接:https://github.com/Chaos96/PointNSP

1. 导读

近年来,生成式 AI 在文本、图像和视频领域取得了巨大进展,但如何高质量、高效率地生成三维几何结构,仍然是一个重要而具有挑战性的问题。3D 点云作为一种基础的三维表示形式,被广泛应用于机器人感知、自动驾驶、数字孪生、CAD 设计和 3D 内容创作等场景。然而,与文本序列不同,点云天然是一个无序集合,这使得自回归生成模型在点云生成中长期面临困难。

点云生成看似只是“生成一组三维坐标”,但对自回归模型来说并不简单。原因在于,点云天然是一个无序集合:同一个物体的点可以用任意顺序排列,几何形状本身并不会因此改变。然而,传统自回归方法通常需要把点云强行展开成一个序列,再按照 next-point prediction 的方式一个点一个点生成。这种做法虽然形式上套用了语言模型的范式,但实际上引入了人为排序偏差。模型容易学习到局部相邻点之间的连续关系,却很难同时把握物体的整体轮廓、对称结构和长程几何依赖。因此,在 3D 点云生成中,如何既保留自回归模型的可扩展性,又避免逐点排序破坏无序点集的本质,是一个长期存在的核心难题。

为了解决这一问题,我们提出了PointNSP: Autoregressive 3D Point Cloud Generation with Next-Scale Level-of-Detail Prediction。不同于传统方法将点云强行展开为序列、再逐点预测,PointNSP 将 3D 点云生成重新定义为一个从粗到细的多尺度生成过程:模型首先生成低分辨率下的全局形状,再逐步预测更高分辨率下的几何细节。通过这种 Next-Scale Prediction 范式,PointNSP 更自然地匹配了3D形状由整体到局部、由轮廓到细节的层次结构,同时避免了人为点序给无序点集建模带来的偏差。

CVPR'26开源|扩散模型不再是3D点云生成最优解?PointNSP提出「下一尺度预测」新范式图2

作者信息:孟子乔,新加坡国立大学博后,研究方向为生成模型,AI for Science和几何深度学习。联系方式:zq-meng@nus.edu.sgziqiaomeng001@gmail.com。欢迎更多交流合作。

2. 效果展示:

近日,由新加坡国立大学、南洋理工大学、香港大学、剑桥大学、香港中文大学、上海交通大学等机构的学者联合提出的 PointNSP,首次将“下一个尺度预测”范式系统引入 3D 点云生成任务,为自回归 3D 生成提供了一条新的技术路径。PointNSP 具有以下几个重要优势 (Figure 1):

(1)生成效率更高。 相比通常需要多步迭代去噪的 Diffusion 模型,PointNSP 采用自回归的尺度级生成方式,只需沿着有限个 Level-of-Detail 逐步预测,即可生成高质量 3D 点云,因此在推理效率上更具优势。

(2)更适合无序点云建模。 PointNSP 不再依赖人为设计的点顺序,而是在尺度之间进行自回归建模、在尺度内部允许点与点充分交互。这种设计既保留了自回归模型清晰的生成过程,又避免了逐点生成对点云无序性的破坏。

(3)兼顾全局结构与局部细节。 从低分辨率到高分辨率的生成过程,使模型可以先把握物体整体轮廓,再逐步补充细粒度几何信息。这种 coarse-to-fine 的方式更符合 3D 形状本身的层次结构,有助于生成结构完整、细节丰富的点云。

(4)为自回归 3D 生成提供新范式。 PointNSP 表明,自回归模型并不局限于文本或图像序列建模。只要设计合适的表示方式和生成顺序,自回归范式同样可以在 3D 点云生成中取得强竞争力,并为未来更大规模、更可控的 3D 生成模型奠定基础。

PointNSP与重要基准方法在六个重要指标的对比如下 (Figure 1):CVPR'26开源|扩散模型不再是3D点云生成最优解?PointNSP提出「下一尺度预测」新范式图3

生成的点云对比可视化如下(Figure 4):CVPR'26开源|扩散模型不再是3D点云生成最优解?PointNSP提出「下一尺度预测」新范式图4

这里我们也可视化展示了PointNSP的生成过程 (Figure 5):CVPR'26开源|扩散模型不再是3D点云生成最优解?PointNSP提出「下一尺度预测」新范式图5

3. Next-Scale Prediction新范式

扩散模型(Diffusion Models)的基本范式是:从随机高斯噪声出发,通过迭代去噪过程逐步恢复出高质量的3D点云。其最大的优势在于能够直接在完整点集上建模全局几何结构,因此生成质量通常较高。然而,这种逐步去噪的机制也带来了较高的计算开销:生成一个样本往往需要数百甚至上千次迭代。此外,扩散过程中的中间状态本质上仍然是带噪信号,缺乏明确的语义结构,因此难以获得可直接用于下游任务的层次化潜在表示(latent representation)。

与之相对,自回归模型(Autoregressive Models)通常需要首先将无序点云转换为某种有序序列,然后采用“下一个点预测(Next-Point Prediction)”的方式逐点生成3D形状。这类方法继承了语言模型的训练范式,具有良好的扩展性和较高的生成效率。然而,由于点云本质上是一个无序集合(set),强行引入生成顺序会破坏点云的置换不变性(Permutation Invariance):同一个点云在不同点排列下应具有相同的概率分布,但自回归模型往往依赖于特定的序列化方式,从而引入额外的建模偏差。同时,逐点生成也使得模型难以有效捕捉远距离点之间的全局几何关系。

相比上述两类范式 (Figure 2),PointNSP提出了一种全新的下一尺度预测(Next-Scale Prediction)生成范式。其核心思想来源于计算机图形学中的Level-of-Detail(LoD) 表示:模型并非逐点生成,也不是从噪声开始去噪,而是从一个极粗糙的点云开始,逐步预测更高分辨率的几何细节,实现从粗到精的层次化生成过程。这种设计同时兼顾了扩散模型和自回归模型的优势。一方面,每个尺度对应的都是一个完整的点云结构,因此模型能够自然地建模全局几何关系;另一方面,生成过程只需经历少量尺度级别的递归预测,而无需数百步去噪,从而显著提高了生成效率。更重要的是,与扩散模型中缺乏明确语义的噪声状态不同,PointNSP在每一个中间步骤得到的都是具有清晰几何意义的不同分辨率点云,因此形成了一种天然的层次化3D表示。这种结构化的中间表示不仅有利于生成,还能够为点云补全、上采样、编辑以及3D内容创作等下游任务提供更丰富的几何先验。CVPR'26开源|扩散模型不再是3D点云生成最优解?PointNSP提出「下一尺度预测」新范式图6

4. 两阶段训练框架

PointNSP整体采用两阶段训练框架。第一阶段主要学习一个能够有效压缩和重建3D点云的多尺度Tokenizer(Multi-Scale Tokenizer)。其目标是将连续的3D几何结构映射为离散的多尺度表示,为后续的生成模型提供结构化的建模空间。

多尺度Tokenizer的核心思想来源于残差学习(Residual Learning)。与传统VQ-VAE仅使用单层码本不同,PointNSP为不同尺度分别构建独立的Tokenizer,并要求各尺度学习互补的几何信息。具体而言,较粗尺度的Tokenizer首先编码点云的主体结构,而后续尺度的Tokenizer仅负责编码前面尺度尚未表示的部分,即几何残差信息。因此,随着尺度逐渐增加,模型能够以“从粗到细”的方式逐步刻画越来越丰富的局部细节,从而形成层次化的3D表示。(Figure 3(a))

一个关键问题在于:如何构建具有层次关系的多尺度点云序列? 为此,我们利用经典的Farthest Point Sampling(FPS)算法构建点云的Level-of-Detail(LoD)表示。具体来说,我们以递归(recursive)的方式对目标点云执行FPS下采样:最粗尺度仅保留少量能够覆盖整体形状的关键点,而更高尺度则在前一尺度基础上逐步增加新的点。通过这种递归采样策略,我们得到了一组天然满足包含关系的多尺度点云序列:

这种由粗到细逐步扩展的结构本质上对应于计算机图形学中的Level-of-Detail(LoD)表示。更重要的是,由于每个尺度仅包含前一尺度所缺失的新增点,因此不同尺度之间天然满足因果依赖关系(causal dependency),从而形成我们所提出的因果LoD序列(Causal LoD Sequence)。这一性质为后续的“下一尺度预测(Next-Scale Prediction)”生成范式提供了基础:模型只需根据当前尺度的点云结构预测下一尺度新增的几何细节,即可实现从粗到精的高效3D生成。

CVPR'26开源|扩散模型不再是3D点云生成最优解?PointNSP提出「下一尺度预测」新范式图7

对于点云序列的构建,我们特别强调一点:由于FPS采样过程本身具有随机性(例如随机选择初始种子点),同一个目标点云并不对应唯一的因果LoD序列,而是可以生成多个不同但同样合理的层次化表示。因此,在训练阶段,我们针对每个训练样本重复执行FPS采样,构建多个不同的因果LoD序列作为监督信号。

这一策略本质上是一种针对3D点云的结构化数据增强。不同的LoD序列会对应不同的几何分解方式,从而使模型能够从多个视角理解同一个3D形状,而不是过度依赖某一种固定的层次结构 (Figure S3)。实验表明,这种多序列训练方式能够有效提升Tokenizer对潜在3D几何分布的覆盖能力,增强模型的泛化性能,并进一步提高生成结果的多样性和质量。

CVPR'26开源|扩散模型不再是3D点云生成最优解?PointNSP提出「下一尺度预测」新范式图8

第二阶段的核心目标是学习多尺度Token序列的生成分布。为此,PointNSP采用了一种基于 Block-wise Decoder-Only Transformer 的自回归建模框架,通过“下一尺度预测(Next-Scale Prediction)”的方式,从粗到细逐步生成完整的3D点云表示。

为了充分利用点云的几何结构以及LoD序列的层次关系,我们针对Transformer设计了三个关键模块:

(1) 3D位置编码(3D Positional Encoding

与语言模型中的一维位置编码不同,3D点云本质上是定义在三维空间中的几何对象,因此空间位置信息至关重要。然而,在第二阶段训练时,模型的输入仅包含离散化后的多尺度Token序列,并不显式包含对应的3D坐标信息。为了解决这一问题,我们利用第一阶段训练得到的Tokenizer Decoder,将当前尺度的Token序列解码为对应的中间形状,从而恢复其三维坐标。随后,我们将这些坐标编码为3D绝对位置编码,并作为下一尺度预测过程的输入。通过这种方式,模型在进行Token生成时能够始终感知当前形状的几何结构,从而建立离散Token空间与连续3D几何空间之间的联系。

(2) 尺度内关系建模(Intra-Scale Interaction

对于同一LoD尺度内的Token,我们采用双向注意力机制(Bidirectional Attention)建模其全局依赖关系,使模型能够充分捕获该尺度下的整体几何结构。 进一步地,仅依靠绝对位置编码仍然不足以刻画点与点之间的相对空间关系。为此,我们提出了 Position-Aware Soft Mask 机制。具体而言,我们根据Token对应点之间的空间距离构造连续的注意力偏置,将几何邻近性作为先验显式注入Transformer注意力计算过程。这样一来,模型不仅能够感知每个点“在哪里”,还能理解不同点之间“相距多远”,从而更有效地建模局部与全局几何关系。

(3) 尺度间关系建模(Inter-Scale Interaction

PointNSP的核心思想是从粗到细逐步生成几何细节。因此,不同LoD尺度之间天然存在层次化依赖关系:粗尺度决定整体形状结构,而细尺度负责补充局部几何细节。为了显式建模这种层次关系,我们在不同尺度之间采用因果注意力机制(Causal Attention),使得当前尺度只能访问已经生成的低分辨率尺度信息,而无法看到未来尺度的内容。这样,高分辨率尺度能够在继承全局结构的基础上逐步细化几何细节,从而形成稳定且一致的层次化生成过程。(Figure 3(b))

从整体注意力结构来看,PointNSP采用了一种“尺度内双向(Bidirectional)+ 尺度间因果(Causal)”的混合注意力机制:同一尺度内部允许Token充分交互,以建模全局几何关系;不同尺度之间则严格遵循由粗到细的信息流动方向,以保证生成过程的因果性。

这种设计兼顾了扩散模型与传统自回归模型的优势。一方面,每个尺度内部的双向建模能力使模型能够有效捕获全局几何结构;另一方面,尺度间的因果生成方式又保留了自回归模型高效推理和良好扩展性的特点。最终,PointNSP能够同时建模尺度内部的几何依赖关系以及尺度之间的层次演化过程,从而实现高效且高质量的3D点云生成。

CVPR'26开源|扩散模型不再是3D点云生成最优解?PointNSP提出「下一尺度预测」新范式图9

5. 实验效果

在实验结果上 (Table 1),PointNSP 在 ShapeNet 点云生成基准上取得了非常有竞争力的表现。在单类别生成任务中,PointNSP-m 在 Airplane、Chair、Car 三个类别上的平均 1-NNA 指标达到 Mean CD = 59.65、Mean EMD = 56.13,优于此前较强的 diffusion baseline,例如 TIGER 的 Mean CD = 60.46、Mean EMD = 57.08,也明显优于已有自回归方法 PointGPT 的 Mean CD = 63.44、Mean EMD = 62.24。这说明 PointNSP 首次将自回归点云生成推进到了与强 diffusion 模型竞争、甚至超过它们的水平。

CVPR'26开源|扩散模型不再是3D点云生成最优解?PointNSP提出「下一尺度预测」新范式图10

PointNSP在两个更具挑战性的场景中均取得了新的SOTA表现 (Table 2)。首先,在8192点高分辨率点云生成任务上,PointNSP在Airplane、Chair和Car三个类别上的CD和EMD指标全面优于现有扩散模型和自回归模型,展现出优异的高分辨率生成能力。其次,在包含55个类别的大规模多类别生成任务中,PointNSP的优势进一步扩大,说明其不仅能够学习单一类别的几何分布,还具备良好的跨类别泛化能力和扩展性。这些结果充分验证了Next-Scale Prediction范式在生成质量与模型扩展性上的优势。

CVPR'26开源|扩散模型不再是3D点云生成最优解?PointNSP提出「下一尺度预测」新范式图11

效率方面 (Table 3),PointNSP 的优势更加明显。PointNSP-s 仅有 22M 参数,训练时间约 125 GPU hours,采样时间约 3.21s;PointNSP-m 也只有 32M 参数,采样时间约 3.59s。相比之下,LION 需要 60M 参数、约 550 GPU hours 训练、采样时间 31.2s;TIGER 需要 55M 参数、采样时间 23.6s。也就是说,PointNSP-m 在更少参数和更快推理的情况下,仍然取得了更好的生成质量。在更高密度的 8192 点生成设置下,这种优势进一步扩大。PointNSP-m 的训练时间约 190 GPU hours,采样时间约 5.48s;而 PVD、LION、TIGER 的采样时间分别为 58.1s、59.5s、42.1s。这说明随着点云分辨率提高,PointNSP 的 next-scale prediction 范式在效率和可扩展性上更加突出。

CVPR'26开源|扩散模型不再是3D点云生成最优解?PointNSP提出「下一尺度预测」新范式图12

更重要的是,PointNSP所学习的多尺度表示本身具有良好的通用性。由于完整形状生成、点云补全、点云上采样以及3D编辑等任务本质上都可以被视为不同尺度几何信息的预测与补充,因此PointNSP能够自然迁移到这些下游任务中。在本文中,我们进一步展示了PointNSP在点云补全和点云上采样任务上的优异表现 (Figure 6 & Table 5),验证了该框架作为通用3D基础模型的潜力。

CVPR'26开源|扩散模型不再是3D点云生成最优解?PointNSP提出「下一尺度预测」新范式图13
CVPR'26开源|扩散模型不再是3D点云生成最优解?PointNSP提出「下一尺度预测」新范式图14

6. 展望

从更长远的角度来看,PointNSP所提出的“下一尺度预测(Next-Scale Prediction)”范式不仅是一种新的3D生成方法,更提供了一种兼具层次性、结构性和可扩展性的3D表示学习框架。与传统扩散模型从随机噪声逐步恢复几何结构不同,PointNSP直接在具有明确几何意义的多尺度LoD表示上进行建模,使得生成过程中的每一个中间状态都对应一个真实且可解释的3D形状。这种从粗到细的层次化建模方式天然符合人类理解和构建三维世界的过程,也为未来更加可控、高效的3D生成奠定了基础。 这种能力有望成为众多3D智能系统的重要基础模块。例如,在CAD设计与工程建模中,多尺度表示能够支持复杂几何结构的生成、编辑与优化;在机器人与具身智能场景中,层次化的3D表示可以为环境理解、物体建模以及操作规划提供几何先验;在3D内容创作、数字孪生和虚拟现实等应用中,高效的自回归生成机制则有望显著降低高质量三维资产的构建成本。 我们希望PointNSP能够为自回归3D生成开辟一条新的技术路线,并进一步推动3D生成模型向着更高效率、更强可控性以及更大规模建模能力的方向发展。

本文仅做学术分享,如有侵权,请联系删文。

CVPR'26开源|扩散模型不再是3D点云生成最优解?PointNSP提出「下一尺度预测」新范式图15CVPR'26开源|扩散模型不再是3D点云生成最优解?PointNSP提出「下一尺度预测」新范式图16CVPR'26开源|扩散模型不再是3D点云生成最优解?PointNSP提出「下一尺度预测」新范式图17CVPR'26开源|扩散模型不再是3D点云生成最优解?PointNSP提出「下一尺度预测」新范式图18

添加微信:cv3d001,备注:姓名+方向+单位,邀请入群。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
阿波罗11号登月代码开源,NASA公开57年前关键程序细节
【K230/K230D新技能点亮】有趣开源项目分享:CanMV 解锁 AI 代码生成 + 硬件控制全新体验
MiniMax 2.7正式开源,国产大模型竞争进入新阶段
月之暗面估值飙至200亿美元,中国开源模型何以在“性价比”赛道突围?
NVIDIA Nemotron 3 Super登顶开源榜单,混合架构重塑推理效率边界
看完英伟达开源的Cosmos3后,感觉物理AI的最优开源底座又被它占了......
没想到!DeepSeek V4里,竟还藏着一个中国万亿开源模型
李飞飞世界模型“杀手锏”开源!网页3D大场景秒开,手机畅跑1亿点云
700亿!曝DeepSeek融资谈判接近尾声,梁文锋承诺专注开源和AGI
杨植麟交卷!Kimi K2.6抢先开源,指挥300个Agent上岗,实测手搓3D格斗游戏
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号