Surflo:具有全局状态的一致3D表面流模型

Hugging Face Daily Papers 论文

摘要

Surflo是一种前馈3D重建模型,它将未定姿的RGB视图压缩成潜在标记,并通过流匹配解码出一致的3D表面点,支持可变分辨率输出,在速度上优于现有方法。

几何体对视角具有不变性,这使得任何图像集合都是单个3D状态的一种冗余编码。现有的前馈重建模型未能利用这一点:逐视图方法输出重叠且未对齐的点图,且点图随输入数量线性增长;而全局潜在方法则固定于低分辨率输出。我们提出了Surflo,它将可变数量的未定姿RGB视图压缩为K个潜在标记——即一个全局状态——并通过流匹配将噪声独立地传输到表面,从而解码出带方向的3D表面点。这使得输出不受任何固定网格或标记预算的限制:同一个潜在表示可以在单次前向传递中生成从几千到一百万个点。为了抑制独立逐点解码固有的局部不一致性,我们在ODE积分过程中注入光度梯度,引入一个推理时引导项来关联邻近点。Surflo在表面指标上达到或超越了前馈基线,比需要数百视图的优化方法快一个数量级,并且是唯一一种将全局潜在与任意分辨率解码结合的前馈方法。
查看原文
查看缓存全文

缓存时间: 2026/06/12 02:52

论文页面 - Surflo:具有全局状态的一致3D表面流模型

来源:https://huggingface.co/papers/2606.13644

摘要

Surflo将无姿态RGB视图压缩为潜在令牌,并通过流匹配解码3D表面点,与现有方法相比,能够输出灵活的分辨率并实现高效处理。

几何形状与视角无关,这使得任何一组图像都是对单一3D状态的冗余编码。现有的前馈重建模型未能利用这一点:逐视角方法会输出重叠且未对齐的点地图,且输出随输入数量线性增长;而全局潜在方法则局限于固定的低分辨率输出。我们提出Surflo,它将可变数量的无姿态RGB视图压缩为K个潜在令牌——一个全局状态——并通过流匹配将噪声点独立传输到表面上,从而解码出有向的3D表面点。这使得输出不再受限于固定的网格或令牌预算:同一个潜在状态单次前向传播即可生成从几千到一百万个点。为了抑制独立逐点解码带来的局部不一致性,我们在ODE积分过程中引入了一个推理时的引导项,通过注入光度梯度来关联邻近点。Surflo在表面指标上达到或超越了前馈基线模型,运行速度比需要数百个视图的基于优化的方法快一个数量级,并且是唯一结合全局潜在表示与任意分辨率解码的前馈方法。

查看 arXiv 页面 (https://arxiv.org/abs/2606.13644)查看 PDF (https://arxiv.org/pdf/2606.13644)项目页面 (https://anttwo.github.io/surflo/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.13644)

在您的智能体中获取此论文:

hf papers read 2606.13644

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接到此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.13644 以便从此页面链接。

引用此论文的数据集0

没有数据集链接到此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.13644 以便从此页面链接。

引用此论文的 Spaces0

没有 Space 链接到此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.13644 以便从此页面链接。

包含此论文的收藏集0

没有包含此论文的收藏集

请将此论文添加到一个收藏集中,以便从此页面链接。

相似文章

SurGe:点地图中改进的表面几何

Hugging Face Daily Papers

SurGe引入了一个Neighborhood Attention Decoder和一种重新制定的尺度不变梯度匹配损失,以改进前馈式3D重建中的局部表面几何精度,特别是对于薄结构。它在零样本单目几何基准测试中取得了最先进的平均排名,并在局部点图和法线度量方面表现更好。

基于超球面流的语言建模

arXiv cs.LG

本文介绍了 S-FLM,一种新颖的基于流的语言模型。该模型在超球面潜在空间中运行,旨在解决现有离散扩散模型和连续流模型的计算成本高昂及语义表达受限等问题。

非对称流模型

Hugging Face Daily Papers

非对称流建模(AsymFlow)将噪声预测限制在低秩子空间,以实现高效的高维流生成,通过从潜在流模型微调,在ImageNet和文本到图像任务上取得了最先进的结果。

AsymFlow宣称通过超越潜在扩散,生成更逼真的AI图像

Reddit r/ArtificialInteligence

AsymFlow是斯坦福大学提出的一种新方法,它将潜在扩散模型转换为像素空间,通过避免压缩带来的信息损失,生成更逼真的图像。在基准测试中,它以更低的计算成本超越了FLUX.2 klein。