SpatialAvatar-0：基于多阶段重建的高质量4D头部虚拟形象

Hugging Face Daily Papers 2026/06/14 00:00 论文

摘要

SpatialAvatar-0 提出了一种基于共享 FLAME 网格绑定高斯表示的多阶段重建方法，用于高质量4D头部虚拟形象，在多个基准测试中实现了更优性能，且迭代次数更少。

从一个或少数源肖像生成高质量4D头部虚拟形象，是远程呈现、增强现实/虚拟现实和数字人交互的核心技术。3D高斯泼溅（3DGS）已成为主流表示方法，其两个互补路线（可泛化的前馈预测器和逐主体优化器）并行发展。然而，现有前馈预测器仅在单一数据集家族上训练且硬编码了源图像数量，继承了对该领域的偏差。逐主体优化器需要30万至60万次迭代，并依赖自适应密集化操作破坏上游高斯布局，导致两种路线无法端到端共享同一表示。为弥合这一差距，我们提出 SpatialAvatar-0，基于共享的 FLAME 网格绑定高斯表示：一个前馈生成器，搭配无参数的 K 源均值池化，以及一个从单目时序到多视角空间的两阶段调度策略，防止身份先验在较小多视角集上坍缩。我们还引入了一个仅需1万次迭代、保持布局的逐主体优化循环，冻结 FLAME 绑定和高斯数量，并用三组件抗尖峰正则化替代密集化操作。在 VFHQ/HDTF 跨域零样本测试中，尽管从未在任一测试域上训练，我们仍超越域内领先方法 GAGAvatar 1.5 dB PSNR；在 SplattingAvatar 单目基准测试中，我们在所有报告指标上领先，以比常见最先进基线短多达60倍的逐主体优化周期，超越需要30万次迭代的 GeoAvatar 1.3 dB PSNR。网站：https://spatialwalk.github.io/SpatialAvatar-0。

查看原文

查看缓存全文

缓存时间: 2026/06/22 09:30

论文页面 - SpatialAvatar-0: 高质量4D头部虚拟化身的多阶段重建

来源：https://huggingface.co/papers/2606.15659

摘要

SpatialAvatar-0 通过前馈预测与逐主体精炼相结合，并借助共享的高斯表示，实现了高质量的4D头部虚拟化身生成，在多个基准测试中均表现出优越性能。

从一个或少数几个源肖像生成高质量4D头部虚拟化身，是远程呈现、AR/VR 以及数字人交互的核心技术。3D高斯泼溅 (https://huggingface.co/papers?q=3D%20Gaussian%20Splatting) (3DGS) 已成为主导表示方法，两种互补的技术路线（可泛化前馈预测器 (https://huggingface.co/papers?q=feed-forward%20predictor) 和逐主体精炼器 (https://huggingface.co/papers?q=per-subject%20refiner)）并行发展成熟。然而，现有的前馈预测器 (https://huggingface.co/papers?q=feed-forward%20predictor) 仅在单一数据集族上训练，且使用硬编码的源图像数量，继承了相应的领域偏差。逐主体精炼器 (https://huggingface.co/papers?q=Per-subject%20refiner) 需要30万至60万次迭代，并依赖自适应稠密化，这会破坏上游的高斯布局，导致两种技术路线无法端到端地共享同一个表示。为桥接两者，我们提出了 SpatialAvatar-0，基于共享的FLAME网格绑定高斯表示 (https://huggingface.co/papers?q=FLAME-mesh-bound%20Gaussian%20representation)：一个带有无参数K源均值池化 (https://huggingface.co/papers?q=mean-pool) 的前馈生成器，以及一个从单目时序到多视角空间的两阶段调度计划，该计划能针对较小的多视角集合锚定，防止身份先验崩溃 (https://huggingface.co/papers?q=identity-prior%20collapse)。我们进一步引入了仅需1万次迭代、保持布局的逐主体精炼循环，该循环冻结FLAME绑定和高斯数量，并用三分量反尖峰正则化 (https://huggingface.co/papers?q=anti-spike%20regularization) 替代稠密化。在VFHQ/HDTF跨领域零样本 (https://huggingface.co/papers?q=cross-domain%20zero-shot) 测试中，尽管从未在任一测试域上训练，我们仍超越了领域内领先者 GAGAvatar，PSNR (https://huggingface.co/papers?q=PSNR) 提高1.5 dB；在SplattingAvatar单目基准测试中，我们在所有报告的指标上均处于领先地位，以比常见SOTA基线短60倍的逐主体调度时间，超越了经过30万次迭代的GeoAvatar，PSNR (https://huggingface.co/papers?q=PSNR) 提高1.3 dB。网站：https://spatialwalk.github.io/SpatialAvatar-0.

查看arXiv页面 (https://arxiv.org/abs/2606.15659)查看PDF (https://arxiv.org/pdf/2606.15659)项目页面 (https://spatialwalk.github.io/SpatialAvatar-0/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.15659)

让你的 Agent 获取这篇论文：

hf papers read 2606\.15659

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用这篇论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.15659 即可从此页面链接。

引用这篇论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.15659 即可从此页面链接。

引用这篇论文的 Space0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.15659 即可从此页面链接。

包含这篇论文的收藏0

没有收藏包含此论文

将此论文添加到收藏 (https://huggingface.co/new-collection) 即可从此页面链接。

SpatialAvatar-0：基于多阶段重建的高质量4D头部虚拟形象

论文页面 - SpatialAvatar-0: 高质量4D头部虚拟化身的多阶段重建

摘要

引用这篇论文的模型0

引用这篇论文的数据集0

引用这篇论文的 Space0

包含这篇论文的收藏0

相似文章

FFAvatar: 少样本、前馈、可泛化的头像重建

无需多视角生成的跨视角一致三维高斯头部头像

Avatar V：可规模化的视频参考虚拟化身视频生成

基于时空注意力链的快速4D网格生成

Lift4D：协调单视角3D估计用于野外4D重建

提交意见反馈