仅2秒！FFAvatar：前馈重建可动画3D高斯头像，PSNR暴涨5.5dB！

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

星球内有20多门3D视觉系统课程、3DGS独家系列视频教程、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研，欢迎加入！仅2秒！FFAvatar：前馈重建可动画3D高斯头像，PSNR暴涨5.5dB！图1

3D头像重建是虚拟现实和数字娱乐的核心技术。然而，现有方法要么需要针对每个受试者进行数小时优化，要么依赖昂贵的预处理流程——计算成本高昂、可扩展性受限、难以快速部署。

研究团队提出FFAvatar方法，一种可泛化的前馈框架，能够从少样本无姿态肖像图像在秒级时间内重建高质量、可动画的3D高斯头像。该方法通过多视图Query-Former融合多源图像信息，并通过端到端预测的FLAME参数实现动画控制。

研究团队提出FFAvatar方法，一种可泛化的前馈框架，能够从少样本无姿态肖像图像在秒级时间内重建高质量、可动画的3D高斯头像。该方法通过多视图Query-Former融合多源图像信息到统一的规范高斯表示，并通过端到端直接从像素预测的FLAME参数实现动画控制。FFAvatar无需针对每个受试者进行优化，显著降低了计算成本，同时保持了高质量重建和精确动画能力。该方法为快速3D头像重建提供了新的技术突破，推动虚拟现实和数字娱乐应用发展。

论文信息

标题：FFAvatar: Few-Shot, Feed-Forward, and Generalizable Avatar Reconstruction

作者：Thuan Hoang Nguyen, Jiahao Luo, Yinyu Nie, Hao Li, Gordon Guocheng Qian, Jian Wang

机构：Nanyang Technological University

原文链接：https://arxiv.org/abs/2605.15320

导读

头像重建传统上依赖针对每个受试者的优化，需要数小时计算，或依赖昂贵的预处理流程，限制了可扩展性。本文引入FFAvatar，一种可泛化的前馈框架，能够从少样本无姿态肖像图像在秒级时间内重建高质量、可动画的3D高斯头像。FFAvatar通过多视图Query-Former融合多源图像信息到统一的规范高斯表示，并通过端到端直接从像素预测的FLAME参数实现动画控制。该方法无需针对每个受试者进行优化，显著降低了计算成本，同时保持了高质量重建和精确动画能力。

效果展示

FFAvatar 模型的三阶段训练流程。首先开展可扩展预训练，基于自研大规模数据集 MFHQ-1M（单身份多帧数据集）训练，提升模型对未知身份的泛化能力；其次进行多视图微调，在小规模 360° 多视角采集数据集（如 Ava256 [18]）上优化预训练权重，提升几何还原精度；最后执行轻量个性化适配，仅需数百步调参，在单张 A100 显卡上耗时不足 7 秒，即可有效强化目标身份特征的保真效果。