SpatialAvatar-0:基于多阶段重建的高质量4D头部虚拟形象
摘要
SpatialAvatar-0 提出了一种基于共享 FLAME 网格绑定高斯表示的多阶段重建方法,用于高质量4D头部虚拟形象,在多个基准测试中实现了更优性能,且迭代次数更少。
查看缓存全文
缓存时间: 2026/06/22 09:30
论文页面 - SpatialAvatar-0: 高质量4D头部虚拟化身的多阶段重建
来源:https://huggingface.co/papers/2606.15659
摘要
SpatialAvatar-0 通过前馈预测与逐主体精炼相结合,并借助共享的高斯表示,实现了高质量的4D头部虚拟化身生成,在多个基准测试中均表现出优越性能。
从一个或少数几个源肖像生成高质量4D头部虚拟化身,是远程呈现、AR/VR 以及数字人交互的核心技术。3D高斯泼溅 (https://huggingface.co/papers?q=3D%20Gaussian%20Splatting) (3DGS) 已成为主导表示方法,两种互补的技术路线(可泛化前馈预测器 (https://huggingface.co/papers?q=feed-forward%20predictor) 和逐主体精炼器 (https://huggingface.co/papers?q=per-subject%20refiner))并行发展成熟。然而,现有的前馈预测器 (https://huggingface.co/papers?q=feed-forward%20predictor) 仅在单一数据集族上训练,且使用硬编码的源图像数量,继承了相应的领域偏差。逐主体精炼器 (https://huggingface.co/papers?q=Per-subject%20refiner) 需要30万至60万次迭代,并依赖自适应稠密化,这会破坏上游的高斯布局,导致两种技术路线无法端到端地共享同一个表示。为桥接两者,我们提出了 SpatialAvatar-0,基于共享的FLAME网格绑定高斯表示 (https://huggingface.co/papers?q=FLAME-mesh-bound%20Gaussian%20representation):一个带有无参数K源均值池化 (https://huggingface.co/papers?q=mean-pool) 的前馈生成器,以及一个从单目时序到多视角空间的两阶段调度计划,该计划能针对较小的多视角集合锚定,防止身份先验崩溃 (https://huggingface.co/papers?q=identity-prior%20collapse)。我们进一步引入了仅需1万次迭代、保持布局的逐主体精炼循环,该循环冻结FLAME绑定和高斯数量,并用三分量反尖峰正则化 (https://huggingface.co/papers?q=anti-spike%20regularization) 替代稠密化。在VFHQ/HDTF跨领域零样本 (https://huggingface.co/papers?q=cross-domain%20zero-shot) 测试中,尽管从未在任一测试域上训练,我们仍超越了领域内领先者 GAGAvatar,PSNR (https://huggingface.co/papers?q=PSNR) 提高1.5 dB;在SplattingAvatar单目基准测试中,我们在所有报告的指标上均处于领先地位,以比常见SOTA基线短60倍的逐主体调度时间,超越了经过30万次迭代的GeoAvatar,PSNR (https://huggingface.co/papers?q=PSNR) 提高1.3 dB。网站:https://spatialwalk.github.io/SpatialAvatar-0.
查看arXiv页面 (https://arxiv.org/abs/2606.15659)查看PDF (https://arxiv.org/pdf/2606.15659)项目页面 (https://spatialwalk.github.io/SpatialAvatar-0/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.15659)
让你的 Agent 获取这篇论文:
hf papers read 2606\.15659
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用这篇论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.15659 即可从此页面链接。
引用这篇论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.15659 即可从此页面链接。
引用这篇论文的 Space0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.15659 即可从此页面链接。
包含这篇论文的收藏0
没有收藏包含此论文
将此论文添加到收藏 (https://huggingface.co/new-collection) 即可从此页面链接。
相似文章
FFAvatar: 少样本、前馈、可泛化的头像重建
FFAvatar提出了一种前馈框架,能在数秒内从少量非摆拍图像中重建高质量、可动画的3D高斯头部头像,在NeRSemble基准测试上相比现有最优方法实现了5.5 PSNR的提升。
无需多视角生成的跨视角一致三维高斯头部头像
MVCHead 是一种新颖的方法,仅从单张二维图像生成三维高斯头部头像,无需多视角数据,利用分层状态空间模型和跨视角一致性约束。
Avatar V:可规模化的视频参考虚拟化身视频生成
Avatar V 是一个生产级框架,用于生成行为可识别的虚拟化身视频,基于完整视频参考,引入稀疏参考注意力和运动表示流,在身份保持和唇形同步方面达到最先进水平。
基于时空注意力链的快速4D网格生成
一种基于时空注意力链的无需训练4D网格生成方法,将创建时间加速至9秒(13倍加速),同时提升时间一致性并扩展到更长的序列,具备零样本追踪和相机估计能力。
Lift4D:协调单视角3D估计用于野外4D重建
Lift4D是一个测试时优化框架,能够从单目野外视频中重建动态物体的完整4D几何、外观和形变,在具有遮挡和非刚性运动的挑战性序列上优于先前方法。