FFAvatar: 少样本、前馈、可泛化的头像重建

Hugging Face Daily Papers 2026/05/14 00:00 论文

few-shot avatar-reconstruction 3d-gaussian feed-forward flame-parameters multi-view-fusion real-time

摘要

FFAvatar提出了一种前馈框架，能在数秒内从少量非摆拍图像中重建高质量、可动画的3D高斯头部头像，在NeRSemble基准测试上相比现有最优方法实现了5.5 PSNR的提升。

传统上，头像重建依赖于逐主体优化，这需要数小时的计算，或依赖于昂贵的预处理，限制了可扩展性。我们提出了FFAvatar，一种可泛化的前馈框架，能在数秒内从少样本非摆拍肖像图像中重建高质量、可动画的3D高斯头部头像。FFAvatar通过多视图查询变换器（Multi-View Query-Former）将多源图像信息融合为统一的规范高斯表示，并通过直接从像素端到端预测的FLAME参数进行动画，消除了离线FLAME提取的开销。我们进一步提出了三阶段训练课程，实现了广泛的泛化性与高保真重建：(i) 在包含超过100万个身份的大规模单目视频数据上进行可扩展预训练，以学习强大的可泛化先验；(ii) 在高质量的小规模360度捕捉数据集上进行多视图微调，以增强几何保真度和极端视角感知；(iii) 可选个性化，在500步优化内适应特定身份以获得最高保真度。大量实验表明，FFAvatar在身份保持、几何一致性和动画保真度方面树立了新标准。在NeRSemble基准测试上，它超越了现有最优方法LAM，实现了5.5 PSNR的显著提升。此外，FFAvatar支持实时部署，无需个性化在2秒内重建头像，个性化在10秒内重建，并在单个NVIDIA A100 GPU上支持49 FPS的动画。

查看原文

查看缓存全文

缓存时间: 2026/05/18 02:23

论文页 - FFAvatar: 少样本、前馈式、可泛化的头像重建

来源：https://huggingface.co/papers/2605.15320

摘要

FFAvatar 能够从少量无姿态图片中，通过前馈方法结合多视图融合与端到端 FLAME 参数预测，快速重建高质量 3D 头部头像。

传统上，头像重建依赖于针对每个对象的优化，需要数小时的计算，或者依赖昂贵的前处理，限制了可扩展性。我们提出 FFAvatar，一个可泛化的前馈框架（https://huggingface.co/papers?q=feed-forward%20framework），能够在数秒内从少量无姿态人像图片中重建出高质量、可动画化的 3D 高斯头部头像（https://huggingface.co/papers?q=3D%20Gaussian%20head%20avatars）。FFAvatar 通过多视图查询变换器（Multi-View Query-Former，https://huggingface.co/papers?q=Multi-View%20Query-Former）将多张源图片的信息融合为统一的规范高斯表示，并通过直接从像素端到端预测的 FLAME 参数（https://huggingface.co/papers?q=FLAME%20parameters）进行动画驱动，免去了离线 FLAME 提取的额外开销。我们进一步提出了一个三阶段训练课程（https://huggingface.co/papers?q=three-stage%20training%20curriculum），同时实现了广泛的泛化能力和高保真重建：（i）在包含超过 100 万身份的大规模单目视频数据上进行可扩展预训练（https://huggingface.co/papers?q=scalable%20pretraining），学习强大的通用先验；（ii）在少量高质量的 360 度采集数据上进行多视图微调（https://huggingface.co/papers?q=multi-view%20fine-tuning），增强几何保真度和极端视角感知能力；（iii）可选个性化（https://huggingface.co/papers?q=optional%20personalization）步骤，通过 500 次优化迭代适配特定身份以获得最高保真度。大量实验表明，FFAvatar 在身份保持、几何一致性和动画保真度方面设立了新的标杆。在 NeRSemble 基准测试（https://huggingface.co/papers?q=NeRSemble%20benchmark）上，它以 5.5 dB 的 PSNR 提升大幅超越了当前最先进的 LAM（https://huggingface.co/papers?q=LAM）。此外，FFAvatar 支持实时部署（https://huggingface.co/papers?q=real-time%20deployment），在无需个性化时 2 秒内重建头像，个性化时 10 秒内重建，并在单块 NVIDIA A100 GPU（https://huggingface.co/papers?q=NVIDIA%20A100%20GPU）上支持 49 FPS 的动画播放。

查看 arXiv 页面 (https://arxiv.org/abs/2605.15320) / 查看 PDF (https://arxiv.org/pdf/2605.15320) / 项目页面 (https://ffavatar.github.io/) / 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.15320)

在你的 Agent 中获取此论文：

hf papers read 2605.15320

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型 0

无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.15320 以在此页面建立链接。

引用本论文的数据集 0

无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.15320 以在此页面建立链接。

引用本论文的 Spaces 0

无 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.15320 以在此页面建立链接。

包含本论文的收藏集 0

无收藏集包含此论文

请将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 中以在此页面建立链接。

FFAvatar: 少样本、前馈、可泛化的头像重建

论文页 - FFAvatar: 少样本、前馈式、可泛化的头像重建

摘要

引用本论文的模型 0

引用本论文的数据集 0

引用本论文的 Spaces 0

包含本论文的收藏集 0

相似文章

SpatialAvatar-0：基于多阶段重建的高质量4D头部虚拟形象

Avatar V：可规模化的视频参考虚拟化身视频生成

Lite3R：一种高效的模型无关前馈3D重建框架

无需多视角生成的跨视角一致三维高斯头部头像

FaithfulFaces：用于文本到视频生成的姿态保真面部身份保留

提交意见反馈