从视频扩散潜变量生成三角片元(5分钟阅读)
摘要
FLAT 是一种方法,能够直接从压缩的视频扩散潜变量中,通过单次前向传递解码出显式的三角片元,从而提升几何精度,同时支持快速光栅化和基于物理的交互。
谷歌的 FLAT 引入了一种前馈方法,能够直接从视频扩散潜变量中解码出三角片元,相较于基于 3D 高斯的方法,提升了几何精度。
查看缓存全文
缓存时间: 2026/06/25 17:08
# FLAT | 前馈潜在三角形飞溅 (Feedforward Latent Triangle Splatting)
来源:https://flat-splat.github.io/
用于几何精确场景生成的前馈潜在三角形飞溅技术。
在单次前向传递中,从视频扩散潜在表示解码出显式表面对齐的三角形飞溅。
Orest Kupyn1,2, Goutam Bhat1, Philipp Henzler1, Fabian Manhardt1, Christian Rupprecht1,2, Federico Tombari1,3
1Google Research
2牛津大学视觉几何组
3慕尼黑工业大学
FLAT 表明,压缩后的视频扩散潜在表示可以直接映射到显式的非体素场景参数。它不解析 3D 高斯,而是在单次前向中预测三角形飞溅,在保持竞争性视觉质量的同时提升几何精度,并且经过轻量级优化后,能够利用简单的三角形渲染器进行光栅化,以及基于物理的交互。
**直接三角形解码**
FLAT 直接将压缩后的视频扩散潜在表示转化为显式的三角形飞溅,避免了众多前馈场景管线中常见的“先生成后优化”路径。
**几何专用训练**
基于射线的三角形参数化与乘积窗口渲染函数,稳定了三角形回归过程;因为如果方向误差过小,传统方式会破坏梯度流动。
**优化为不透明资产**
一个轻量级的测试时优化步骤,将预测出的三角形“汤”转换为完全不透明的表示,从而适配标准渲染与游戏引擎风格的交互。
## 将生成的场景检查为显式的三角形几何体。
FLAT 输出的场景可立即用简单的三角形渲染器进行探索。这使得查看器在不同设备上快速且可移植,无需依赖重型渲染引擎。在触屏设备上,拖拽场景环顾四周,并使用屏幕上的移动按钮进行导航。
**导航**
WASD 移动,拖拽环顾,R 重置。
**提示**
在视口内双击可快速跳回默认视图。
## 外观与表面结构保持对齐。
我们追求几何精度,而不仅仅是图像的真实感。下面这对渲染图表明,FLAT 的新视角和表面法线在不同视角间保持一致性,使得几何信号清晰可辨,而非隐藏在视觉外观背后。
新视角
表面法线
01 / 07
**BibTeX**
```
@misc{kupyn2026flat,
title = {FLAT: Feedforward Latent Triangle Splatting for Geometrically Accurate Scene Generation},
author = {Orest Kupyn and Goutam Bhat and Philipp Henzler and Fabian Manhardt and Christian Rupprecht and Federico Tombari},
year = {2026},
note = {Preprint}
}
```
相似文章
FLAT: 面向几何精确场景生成的前馈潜在三角形溅射
FLAT提出了一种方法,直接从视频扩散潜在表示中解码显式三角形溅射,用于几何精确的3D场景生成。它引入了以射线为中心的旋转参数化和乘积窗口函数来改善梯度流,实现了比先前前馈方法更好的几何精度,同时支持实时渲染。
从实况画面重建不同视角
4D Gaussian Splatting 是一种将平面2D图像转换为三维空间数据的技术,能够从实况画面重建不同视角。
TriSplat:面向仿真的前馈式三维场景重建
TriSplat是一种前馈式三维重建网络,利用有向三角形图元直接从单张图像生成可直接用于仿真的网格,省去了昂贵的后处理步骤。该方法在保持竞争性的新视角渲染质量的同时,实现了几何保真的重建。
VidSplat:利用几何引导的视频扩散先验进行高斯泼溅重建
VidSplat 是一种无需训练的生成式重建框架,它利用视频扩散先验,通过合成新视角,从稀疏输入中恢复完整的 3D 场景。
GlobalSplat: 通过全局场景标记实现高效的前馈式三维高斯散射
GlobalSplat 引入了一种高效的前馈框架,用于三维高斯散射,通过全局场景标记实现紧凑且一致的场景重建,将计算开销和推理时间降低至78毫秒以下。该方法采用从粗到细的训练策略,防止表示膨胀,同时以显著更少的高斯原语(16K)达到有竞争力的新视角合成性能,与密集基线相比更为高效。