一张图0.1秒生成上半身3D化身！清华IDEA新框架入选ICCV 2025

量子位 2025-08-21 10:35

GUAVA团队投稿
量子位 | 公众号 QbitAI

一张图就能创建上半身动作视频，方法还入选了ICCV 2025！

来自清华大学、IDEA（粤港澳大湾区数字经济研究院）的研究人员提出新框架GUAVA，不需要多视角视频、不需要针对不同个体单人训练，仅需0.1秒就能从单图创建一个上半身3D化身。

资讯配图

通常来说，创建逼真且富有表现力的上半身人体化身（如包含细致面部表情和丰富手势），在电影、游戏和虚拟会议等领域具有重要价值。

但截至目前，仅凭单张图像实现这一目标仍然是一个重大挑战，而且同时还需要易于创建和支持实时渲染。

而GUAVA，作为第一个从单张图像创建可驱动上半身3D高斯化身的框架，与需要多视图视频或单人训练的3D方法不同——可以在秒级时间内完成推理重建，并支持实时动画和渲染。

与基于扩散模型的2D方法相比，GUAVA使用3D高斯来确保更好的ID一致性和实时渲染。而且还引入一种富有表现力的人体模型EHM，解决了现有模型在捕捉细致面部表情方面的局限性。

此外，它还利用逆纹理映射技术以准确地预测高斯纹理，并结合一个神经渲染器来提高渲染质量。

实验结果显示，GUAVA在渲染质量和效率方面优于现有2D和3D方法。

下面详细来看GUAVA所采用的方法。

具体方法

3DGS的兴起催生了许多3D化身重建方法，然而这些方法仍然存在一些局限性：

逐ID练：每个个体都需要单独训练；
训练复杂性：该过程耗时，需要标定的多视图或单目视频；
表现力有限：头部重建方法缺乏身体动作表示，而全身方法则忽略了细致的面部表情。

另外，扩散模型在视频生成方面取得了显著成果。一些工作通过添加额外条件，如关键点或SMPLX渲染图，来引导扩散模型的生成过程，扩展了模型在生成可控人体动画视频上的应用。

但问题是，虽然这些方法实现了良好的视觉效果，其局限性却依旧存在：

ID一致性：难以保持一致的ID，尤其是在姿势发生大变化时；
效率：高计算成本和多步去噪导致推理速度慢，阻碍了实时应用；
视点控制：2D方法无法轻松调整相机姿势，从而限制了视点控制。

而GUAVA则通过以下举措进行了改进。

资讯配图

（1）EHM模型与精确跟踪

为了解决SMPLX模型在捕捉面部表情上的不足，GUAVA引入了EHM（Expressive Human Model）。

EHM结合了SMPLX和FLAME模型，能够实现更准确的面部表情表示。

同时，研究人员设计了对应的两阶段追踪方法，实现从单张图像到姿态的准确估计——首先利用预训练模型进行粗略估计，然后使用2D关键点损失进行精细优化，从而为重建提供精确的姿势和表情参数。

（2）快速重建与双分支模型

GUAVA基于追踪后的图像，通过单次前向推理方式完成化身的重建。

它包含两个分支：一个分支根据EHM顶点和投影特征预测粗略的“模板高斯”，另一个分支则通过“逆纹理映射”技术，将屏幕特征映射到UV空间，生成捕捉精细细节的“UV高斯”。

这两种高斯组合成完整的Ubody高斯，从而在保持几何结构的同时，捕捉丰富的纹理细节。

（3）实时动画与渲染

重建完成后，Ubody高斯可以根据新的姿势参数进行变形和动画。

最后，通过神经细化器对渲染的图像进行优化，以增强细节和渲染质量。

实验环节

实验设置方面，研究人员从YouTube、OSX和HowToSign收集视频数据集，主要关注人体上半身视频。

其中训练集包含超过62万帧，测试集包含58个ID。

为确保评估的全面性，实验采用了多种指标：

自重演（self-reenactment）场景下，通过PSNR、L1、SSIM和LPIPS评估动画结果的图像质量；
跨重演（cross-reenactment）场景下，使用ArcFace计算身份保留分数（IPS）以衡量ID一致性。

评估中与MagicPose、Champ、MimicMotion等2D方法以及GART、GaussianAvatar和ExAvatar 3D方法进行比较。

定量结果如下：

（1）Self-reenactment

与2D方法相比，GUAVA在所有指标（PSNR, L1, SSIM, LPIPS）上均表现最佳，并在动画和渲染速度上达到约50 FPS，而其他方法仅为每秒几帧。

与3D方法相比，GUAVA的重建时间仅为0.1秒左右，而其他方法需要数分钟到数小时。

资讯配图

（2）Cross-reenactment

GUAVA在身份保留分数（IPS）上显著优于其他所有2D方法，证明了其在不同姿势下保持ID一致性的能力。

资讯配图

定性结果显示，尽管2D方法能生成高质量图像，但它们在保持ID一致性和准确恢复复杂手势及面部表情方面存在不足。

例如，Champ的手部模糊，MagicPose存在失真，而MimicMotion则无法保持ID一致性。

3D方法在处理精细的手指和面部表情方面存在困难，也缺乏泛化能力，在未见区域或极端姿势下会产生伪影。

GUAVA则能对未见区域生成合理的结果，在极端姿势下表现出更好的鲁棒性，并提供更准确、更细致的手部和面部表情。

资讯配图

为了验证方法中各个部分的有效性，论文还进行了充分的消融实验。

资讯配图

小结一下，论文所提出的GUAVA，是一个用于从单张图像重建可动画、具有细腻表现力上半身3D化身的快速框架。

研究通过引入EHM模型及其精确跟踪方法，增强了面部表情、形状和姿势的捕捉能力，并通过UV高斯和模板高斯的两个推理分支共同构建一个上半身高斯。

实验结果表明，GUAVA在渲染质量和效率方面均优于现有方法。它实现了约0.1秒的重建时间，并支持实时动画和渲染。

目前相关代码已开源，感兴趣可以进一步关注。

论文地址: https://arxiv.org/pdf/2505.03351
项目主页：https://eastbeanzhang.github.io/GUAVA/
开源代码：https://github.com/Pixel-Talk/GUAVA
视频Demo: https://www.bilibili.com/video/BV1k45AzaEpW/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

资讯配图

🌟 点亮星标 🌟

科技前沿进展每日见

声明：内容取材于网络，仅代表作者观点，如有内容违规问题，请联系处理。

IC

more

ICCV 2025 | ECD：高质量合成图表数据集，提升开源MLLM图表理解能力

机器之心 14小时前

ICCV 2025 | ECD：高质量合成图表数据集，提升开源MLLM图表理解能力

“拥抱AI创芯时代共启IC设计未来”第七届无锡太湖创芯会议

芯榜 2天前

“拥抱AI创芯时代共启IC设计未来”第七届无锡太湖创芯会议

ICCV 2025 | RobustSplat: 解耦致密化与动态的抗瞬态3DGS三维重建

机器之心 2天前

ICCV 2025 | RobustSplat: 解耦致密化与动态的抗瞬态3DGS三维重建

苹果版小爱同学？苹果秘密打造“Charismatic”系统，或许智能家居管家设备格新时刻将近 | 区势·AI

科技区角 4天前

苹果版小爱同学？苹果秘密打造“Charismatic”系统，或许智能家居管家设备格新时刻将近 | 区势·AI

荣耀Magic新机官宣：8月28日，正式发布！

高科技爱好者 12小时前

荣耀Magic新机官宣：8月28日，正式发布！

无锡邀请｜ “拥抱AI创芯时代共启IC设计未来”第七届无锡太湖创芯会议

芯榜 1天前

无锡邀请｜ “拥抱AI创芯时代共启IC设计未来”第七届无锡太湖创芯会议

AGICamp第 008 周 AI 应用榜：买榴莲不靠运气，出远门不怕忘带东西，AI应用全面接管生活是否可行？

AI前线 17小时前

AGICamp第 008 周 AI 应用榜：买榴莲不靠运气，出远门不怕忘带东西，AI应用全面接管生活是否可行？

700万册盗版书喂出Claude，CEO亲口承认偷书训练，Anthropic遭百亿美金索赔，百亿美金罚单倒计时，整个AI圈沉默了

智能情报所 18小时前

700万册盗版书喂出Claude，CEO亲口承认偷书训练，Anthropic遭百亿美金索赔，百亿美金罚单倒计时，整个AI圈沉默了

【投融资】红杉、KleinerPerkins押注数学AI革命：HarmonicB轮融资1亿美金，打造数学超智能

人工智能产业链union 4天前

【投融资】红杉、KleinerPerkins押注数学AI革命：HarmonicB轮融资1亿美金，打造数学超智能

半价！荣耀Magic6至臻版太彪了！

手机评测室 23小时前

半价！荣耀Magic6至臻版太彪了！

Copyright © 2025 成都区角科技有限公司

蜀ICP备2025143415号-1

川公网安备51015602001305号