FFAvatar: 少样本、前馈、可泛化的头像重建

Hugging Face Daily Papers 论文

摘要

FFAvatar提出了一种前馈框架,能在数秒内从少量非摆拍图像中重建高质量、可动画的3D高斯头部头像,在NeRSemble基准测试上相比现有最优方法实现了5.5 PSNR的提升。

传统上,头像重建依赖于逐主体优化,这需要数小时的计算,或依赖于昂贵的预处理,限制了可扩展性。我们提出了FFAvatar,一种可泛化的前馈框架,能在数秒内从少样本非摆拍肖像图像中重建高质量、可动画的3D高斯头部头像。FFAvatar通过多视图查询变换器(Multi-View Query-Former)将多源图像信息融合为统一的规范高斯表示,并通过直接从像素端到端预测的FLAME参数进行动画,消除了离线FLAME提取的开销。我们进一步提出了三阶段训练课程,实现了广泛的泛化性与高保真重建:(i) 在包含超过100万个身份的大规模单目视频数据上进行可扩展预训练,以学习强大的可泛化先验;(ii) 在高质量的小规模360度捕捉数据集上进行多视图微调,以增强几何保真度和极端视角感知;(iii) 可选个性化,在500步优化内适应特定身份以获得最高保真度。大量实验表明,FFAvatar在身份保持、几何一致性和动画保真度方面树立了新标准。在NeRSemble基准测试上,它超越了现有最优方法LAM,实现了5.5 PSNR的显著提升。此外,FFAvatar支持实时部署,无需个性化在2秒内重建头像,个性化在10秒内重建,并在单个NVIDIA A100 GPU上支持49 FPS的动画。
查看原文
查看缓存全文

缓存时间: 2026/05/18 02:23

论文页 - FFAvatar: 少样本、前馈式、可泛化的头像重建

来源:https://huggingface.co/papers/2605.15320

摘要

FFAvatar 能够从少量无姿态图片中,通过前馈方法结合多视图融合与端到端 FLAME 参数预测,快速重建高质量 3D 头部头像。

传统上,头像重建依赖于针对每个对象的优化,需要数小时的计算,或者依赖昂贵的前处理,限制了可扩展性。我们提出 FFAvatar,一个可泛化的前馈框架(https://huggingface.co/papers?q=feed-forward%20framework),能够在数秒内从少量无姿态人像图片中重建出高质量、可动画化的 3D 高斯头部头像(https://huggingface.co/papers?q=3D%20Gaussian%20head%20avatars)。FFAvatar 通过多视图查询变换器(Multi-View Query-Former,https://huggingface.co/papers?q=Multi-View%20Query-Former)将多张源图片的信息融合为统一的规范高斯表示,并通过直接从像素端到端预测的 FLAME 参数(https://huggingface.co/papers?q=FLAME%20parameters)进行动画驱动,免去了离线 FLAME 提取的额外开销。我们进一步提出了一个三阶段训练课程(https://huggingface.co/papers?q=three-stage%20training%20curriculum),同时实现了广泛的泛化能力和高保真重建:(i)在包含超过 100 万身份的大规模单目视频数据上进行可扩展预训练(https://huggingface.co/papers?q=scalable%20pretraining),学习强大的通用先验;(ii)在少量高质量的 360 度采集数据上进行多视图微调(https://huggingface.co/papers?q=multi-view%20fine-tuning),增强几何保真度和极端视角感知能力;(iii)可选个性化(https://huggingface.co/papers?q=optional%20personalization)步骤,通过 500 次优化迭代适配特定身份以获得最高保真度。大量实验表明,FFAvatar 在身份保持、几何一致性和动画保真度方面设立了新的标杆。在 NeRSemble 基准测试(https://huggingface.co/papers?q=NeRSemble%20benchmark)上,它以 5.5 dB 的 PSNR 提升大幅超越了当前最先进的 LAM(https://huggingface.co/papers?q=LAM)。此外,FFAvatar 支持实时部署(https://huggingface.co/papers?q=real-time%20deployment),在无需个性化时 2 秒内重建头像,个性化时 10 秒内重建,并在单块 NVIDIA A100 GPU(https://huggingface.co/papers?q=NVIDIA%20A100%20GPU)上支持 49 FPS 的动画播放。

查看 arXiv 页面 (https://arxiv.org/abs/2605.15320) / 查看 PDF (https://arxiv.org/pdf/2605.15320) / 项目页面 (https://ffavatar.github.io/) / 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.15320)

在你的 Agent 中获取此论文:

hf papers read 2605.15320

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型 0

无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.15320 以在此页面建立链接。

引用本论文的数据集 0

无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.15320 以在此页面建立链接。

引用本论文的 Spaces 0

无 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.15320 以在此页面建立链接。

包含本论文的收藏集 0

无收藏集包含此论文

请将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 中以在此页面建立链接。

相似文章

Lite3R:一种高效的模型无关前馈3D重建框架

Hugging Face Daily Papers

Lite3R 是一个模型无关框架,通过稀疏线性注意力和 FP8 感知量化,提升了基于 Transformer 的 3D 重建效率。在保持 VGGT 和 DA3-Large 等主干网络几何精度的同时,它将延迟和内存占用降低了高达 2.4 倍。

tencentarc/gfpgan

Replicate Explore

GFPGAN 是由腾讯 ARC 开发的实用人脸修复模型,可在 Replicate 上使用。它能高保真地修复老旧或低质量的人脸图像。

FRAPPE: 使用投影追踪编码器的完整输入残差输出自编码

Hugging Face Daily Papers

FRAPPE是一种新颖的自编码框架,使用投影追踪编码器从完整输入预测残差,实现了高效的变速率图像压缩和快速的CPU编码。在高压缩比下,FRAPPE-Image在感知质量上优于AVIF,编码速度快47倍,使得仅使用CPU即可实现实时1080p 30fps编码。