FFAvatar: 少样本、前馈、可泛化的头像重建
摘要
FFAvatar提出了一种前馈框架,能在数秒内从少量非摆拍图像中重建高质量、可动画的3D高斯头部头像,在NeRSemble基准测试上相比现有最优方法实现了5.5 PSNR的提升。
查看缓存全文
缓存时间: 2026/05/18 02:23
论文页 - FFAvatar: 少样本、前馈式、可泛化的头像重建
来源:https://huggingface.co/papers/2605.15320
摘要
FFAvatar 能够从少量无姿态图片中,通过前馈方法结合多视图融合与端到端 FLAME 参数预测,快速重建高质量 3D 头部头像。
传统上,头像重建依赖于针对每个对象的优化,需要数小时的计算,或者依赖昂贵的前处理,限制了可扩展性。我们提出 FFAvatar,一个可泛化的前馈框架(https://huggingface.co/papers?q=feed-forward%20framework),能够在数秒内从少量无姿态人像图片中重建出高质量、可动画化的 3D 高斯头部头像(https://huggingface.co/papers?q=3D%20Gaussian%20head%20avatars)。FFAvatar 通过多视图查询变换器(Multi-View Query-Former,https://huggingface.co/papers?q=Multi-View%20Query-Former)将多张源图片的信息融合为统一的规范高斯表示,并通过直接从像素端到端预测的 FLAME 参数(https://huggingface.co/papers?q=FLAME%20parameters)进行动画驱动,免去了离线 FLAME 提取的额外开销。我们进一步提出了一个三阶段训练课程(https://huggingface.co/papers?q=three-stage%20training%20curriculum),同时实现了广泛的泛化能力和高保真重建:(i)在包含超过 100 万身份的大规模单目视频数据上进行可扩展预训练(https://huggingface.co/papers?q=scalable%20pretraining),学习强大的通用先验;(ii)在少量高质量的 360 度采集数据上进行多视图微调(https://huggingface.co/papers?q=multi-view%20fine-tuning),增强几何保真度和极端视角感知能力;(iii)可选个性化(https://huggingface.co/papers?q=optional%20personalization)步骤,通过 500 次优化迭代适配特定身份以获得最高保真度。大量实验表明,FFAvatar 在身份保持、几何一致性和动画保真度方面设立了新的标杆。在 NeRSemble 基准测试(https://huggingface.co/papers?q=NeRSemble%20benchmark)上,它以 5.5 dB 的 PSNR 提升大幅超越了当前最先进的 LAM(https://huggingface.co/papers?q=LAM)。此外,FFAvatar 支持实时部署(https://huggingface.co/papers?q=real-time%20deployment),在无需个性化时 2 秒内重建头像,个性化时 10 秒内重建,并在单块 NVIDIA A100 GPU(https://huggingface.co/papers?q=NVIDIA%20A100%20GPU)上支持 49 FPS 的动画播放。
查看 arXiv 页面 (https://arxiv.org/abs/2605.15320) / 查看 PDF (https://arxiv.org/pdf/2605.15320) / 项目页面 (https://ffavatar.github.io/) / 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.15320)
在你的 Agent 中获取此论文:
hf papers read 2605.15320
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型 0
无模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.15320 以在此页面建立链接。
引用本论文的数据集 0
无数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.15320 以在此页面建立链接。
引用本论文的 Spaces 0
无 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.15320 以在此页面建立链接。
包含本论文的收藏集 0
无收藏集包含此论文
请将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 中以在此页面建立链接。
相似文章
Lite3R:一种高效的模型无关前馈3D重建框架
Lite3R 是一个模型无关框架,通过稀疏线性注意力和 FP8 感知量化,提升了基于 Transformer 的 3D 重建效率。在保持 VGGT 和 DA3-Large 等主干网络几何精度的同时,它将延迟和内存占用降低了高达 2.4 倍。
无需多视角生成的跨视角一致三维高斯头部头像
MVCHead 是一种新颖的方法,仅从单张二维图像生成三维高斯头部头像,无需多视角数据,利用分层状态空间模型和跨视角一致性约束。
FaithfulFaces:用于文本到视频生成的姿态保真面部身份保留
FaithfulFaces 是一种新的文本到视频生成框架,通过姿态共享对齐和欧拉角嵌入,在姿态变化和遮挡情况下保持面部身份的一致性。
tencentarc/gfpgan
GFPGAN 是由腾讯 ARC 开发的实用人脸修复模型,可在 Replicate 上使用。它能高保真地修复老旧或低质量的人脸图像。
FRAPPE: 使用投影追踪编码器的完整输入残差输出自编码
FRAPPE是一种新颖的自编码框架,使用投影追踪编码器从完整输入预测残差,实现了高效的变速率图像压缩和快速的CPU编码。在高压缩比下,FRAPPE-Image在感知质量上优于AVIF,编码速度快47倍,使得仅使用CPU即可实现实时1080p 30fps编码。