ICCV 2025 Oral | 告别「僵尸」3D数字人!清华、南洋理工等联手打造DPoser-X

3D视觉工坊 2025-08-16 00:00

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

资讯配图

导读

还在为3D人体模型的“僵尸”姿态和“畸形”动作而烦恼吗?来自清华大学、南洋理工大学等机构的研究者们,推出了一种名为 DPoser-X 的全新扩散模型。该模型作为一种强大的3D全身人体姿态先验,能够生成、补全和恢复高度逼真且多样化的人体动作。

实验表明,DPoser-X在8个主流基准测试中全面超越了现有SOTA方法,部分任务的性能提升 高达61% !

项目主页https://dposer.github.io
GitHubhttps://github.com/moonbow721/DPoser-X
论文https://arxiv.org/abs/2508.00599
Huggingfacehttps://huggingface.co/Moon-bow/DPoser-X

话不多说,先上结果。

资讯配图
DPoser-X 性能概览

上图直观展示了DPoser-X的强大实力。无论是生成全新的多样化姿态(a),从单张图片恢复三维人体网格(b),还是补全缺失的人体部分(c),DPoser-X都表现出色。右侧的性能对比图显示,它在多个基准测试中,相较于此前的SOTA方法(如VPoser、NRDF),都取得了较为明显的优势。

3D人体姿态的困境:为何我们总得到“僵尸”模型?

构建一个高保真的3D人体模型,本质上是学习一个“什么姿态是自然的”的先验知识。然而,这其中困难重重。

  1. 内在的复杂性:人体是一个由骨骼、关节和肌肉构成的高度铰接系统。身体、双手和面部表情的协同运动,构成了一个极其复杂和高维的姿态空间。传统模型很难捕捉这种复杂的关联性。
  2. 数据的稀缺性:获取包含全身(特别是精细手部和面部表情)的高质量、高精度的3D动作捕捉数据集,成本高昂且异常困难。这直接导致了模型的“想象力”受限。

此前的技术路线,如高斯混合模型(GMMs)、变分自编码器(VAEs)和神经距离场(NDFs),都遇到了瓶颈:

  • GMMs:由于其无界的特性,有时会生成物理上不可能实现的怪异姿态。
  • VAEs(如经典的VPoser):其潜在空间被强制服从简单的高斯分布,这极大地限制了生成姿态的多样性和表现力,最终导致动作僵硬、缺乏活力,趋向于生成“最安全”的平均姿态。
  • NDFs:虽然在3D曲面建模上表现不错,但在泛化到复杂的人体姿态流形上时,往往力不从心。

正是这些限制,使得我们以往看到的3D数字人,大多摆脱不了“僵尸”般的仪态。

DPoser-X的解法:基于扩散模型的统一优化框架

为了打破僵局,研究团队将目光投向了近年来在AIGC领域大放异彩的扩散模型

DPoser-X的核心思想,是将所有与姿态相关的任务——无论是生成、补全还是去噪——都统一重塑为一个逆问题 (Inverse Problem),并通过一种名为变分扩散采样 (Variational Diffusion Sampling) 的技术进行优化求解。

资讯配图
DPoser 优化框架

在这个框架中,DPoser-X扮演着一个强大的正则化项角色。它像一位经验丰富的“姿态导师”,在模型根据任务输入(如2D关键点)进行优化时,不断地将当前的姿态“拉回”到一个更自然、更合理的分布范围内,从而确保最终生成的动作既符合任务要求,又栩栩如生。

两大“独门秘籍”,炼成全能姿态先验

为了将扩散模型的潜力发挥到极致,DPoser-X团队研发了两大创新策略。

1. 截断时间步调度 (Truncated Timestep Scheduling)

这是一个深刻的洞察。在图像生成任务中,扩散模型的早期步骤(噪声较大时)决定了图像的整体结构和内容,而后期步骤则负责精修细节。但研究团队发现,人体姿态数据恰恰相反

资讯配图
截断时间步示意图

如上图所示,姿态的绝大部分有效信息和关键的优化过程,都集中在扩散过程的后期时间步(即t值较小,噪声水平较低时)。若像处理图像一样平均分配计算资源,则会造成大量浪费。因此,DPoser-X独创了“截断”策略,在优化时只关注和利用后期的关键时间步,极大地提升了优化效率和最终效果。

2. 混合训练策略 (Mixed Training Strategy)

这是应对数据稀缺问题的“神来之笔”。既然高质量的全身数据那么少,那能不能利用海量的“局部”数据呢?

DPoser-X的设计正是如此。它巧妙地融合了大量仅包含身体、仅包含手部或仅包含面部的“部分数据集”。

资讯配图
DPoser-X 架构与训练策略

通过一种新颖的掩码训练机制,DPoser-X将这些部分数据视为“不完整的”全身数据。在训练时,模型只对有数据可用的部分计算损失。这使得模型不仅能学习到各个身体部分的精确姿态分布,还能捕捉到它们之间的复杂相互依赖关系(例如,特定的手势往往伴随着特定的身体姿态),同时又避免了对稀有的全身数据产生过拟合。

最终训练出的 DPoser-X-mixed 模型,在真实感和多样性之间取得了完美的平衡。

实验见真章:从宏观到微观的全方位碾压

研究团队在覆盖身体、手部、面部和全身的多个任务上进行了实验,实验结果全面超过了先前主流先验模型。

1. 身体姿态任务:

在最基础的body-only姿态生成任务中,DPoser-X的优势显而易见。

资讯配图
姿态生成对比

如上图所示,VPoser生成的姿态较为单一,缺乏多样性;而GMM和Pose-NDF生成的姿态则不够自然。相比之下,DPoser-X生成的姿态更为逼真,而且覆盖了广泛的动作范围,展现了其学到的先验分布的优越性。

在更具挑战性的姿态补全任务中,当身体的某些部分(如左腿)被遮挡时,DPoser-X能够生成多种合理的、符合逻辑的完整姿态,而其他方法往往难以做到,这体现了其强大的“想象”和泛化能力。

资讯配图
姿态补全任务

2. 对面部和手部的建模

真正的全身模型,决不能忽略面部和手部的细节。DPoser-X也同样可以处理这些任务。

面部重建 (Face Reconstruction)

这是一项极具挑战性的任务:仅从一张2D图片,重建出高精度的3D人脸模型。DPoser-X在处理这类问题时,尤其是在有遮挡、侧脸等复杂情况下,表现出了惊人的鲁棒性。

资讯配图
姿态补全任务

从上图可以看出,无论是L2先验还是VPoser,在面对侧脸或者复杂表情时,重建出的3D模型都存在明显的瑕疵。而DPoser-X凭借其强大的面部先验,能够重建出细节丰富、表情生动且高度逼真的脸部网格,甚至优于专门的面部重建模型MICA。定量分析显示,在NOW基准测试中,DPoser-X将平均重建误差降低到了8.76mm,刷新了SOTA。

手部姿态恢复 (Hand Mesh Recovery)

对于形态多变的手部,DPoser-X同样手到擒来。在手部逆运动学任务中,即便输入的手指关键点稀疏或带有噪声,DPoser-X依然能稳定恢复出自然、准确的手部姿态,远超其他方法。

资讯配图
姿态补全任务

3. 终极挑战:完整、协调的全身运动

当把所有部分组合在一起,DPoser-X展现了其作为全身模型的真正价值——协调性。

在从有噪声的2D关键点进行全身网格恢复的任务中,DPoser-X能够同时恢复出准确的身体、手部和面部姿态,生成一个完整且动作协调的3D模型。而其他方法在处理这种不完美的输入时,往往顾此失彼。

资讯配图
姿态补全任务

全身姿态补全任务中(如下图,一只手被随机遮挡),DPoser-X能准确推断出被遮挡手部与身体其他部分的联动关系,生成高度匹配的姿态。这证明了其混合训练策略的成功,模型确实学到了全身各部件之间的相互依赖关系。

资讯配图
姿态补全任务

全面开源,促进社区进步

DPoser-X作为一个即插即用的先验模块,可以在许多地方派上用场,为了方便大家的使用,作者在GitHub进行了非常详细的开源,每个下游任务的测试和训练代码都进行了整理,model_zoo全部开放到Huggingface上,欢迎大家使用与stars!

本文仅做学术分享,如有侵权,请联系删文。

3D视觉1V1论文辅导来啦!

资讯配图

3D视觉学习圈子

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

资讯配图

3D视觉全栈学习课程:www.3dcver.com

资讯配图

3D视觉交流群成立啦,微信:cv3d001

资讯配图

添加微信:cv3d001,备注:方向+单位,邀你入3D视觉交流群!

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IC
more
会议邀请[上海] :西门子EDA年度大会-AI EDA|3DIC|IC设计及验证|物理设计及验证|制造与测试
记忆功能成新战场,谷歌Gemini、Anthropic Claude联手狙击OpenAI,网友:终于不用从头再来了
MicroLED,全面开花
AI芯片初创公司NeoLogic完成1000万美元融资,将推出首款服务器CPU| 区势·AI
ICT巨头转身AI“交钥匙商”:中兴全栈技术输出,打造国家队新质生产力
荣耀Magic V Flip2即将上市,新机测试10000mAh电池
从 AI 到 3D IC,电子设计的突破点都藏在西门子这场论坛里了!
中科亿海微执行副总裁徐成华受邀出席“2025中国测量控制与仪器仪表产业大会(CIC)”并作主题演讲
Anthropic 的 Claude 现在拥有百万级 token 上下文窗口,是之前的 5 倍
【前沿】荣耀MagicVFlip2新款小折叠官宣 依旧有特别设计版本
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号