3D视觉烹饪书:数据、学习范式与应用
摘要
本文提出了3D视觉研究的全面分类体系,涵盖几何表示、数据集、学习范式以及在重建、生成和视频建模中的应用。
查看缓存全文
缓存时间: 2026/06/08 19:17
论文页面 - 3D视觉菜谱:数据、学习范式与应用
来源:https://huggingface.co/papers/2606.04291 发表于6月2日
·
提交者https://huggingface.co/zli12321
LZX (https://huggingface.co/zli12321)于6月8日
作者:, , , , , , , , ,
摘要
3D视觉研究通过一个分类体系组织,该分类体系将几何表示、数据集、学习框架以及在重建、生成和视频建模任务中的应用联系起来。
3D视觉在日益多样化的数据表示、学习范式和建模策略的推动下迅速发展。然而,该领域在表示和基准测试方面仍然零散,使得难以对效率、保真度和可扩展性形成统一观点。本文提供了一个以数据为中心的3D视觉分类体系,将几何表示、数据集、学习框架和应用整合在单一概念图中。我们首先分析3D数据的主要结构表示——点云、网格、体素和3D高斯——以及它们的获取流程。然后我们审视数据集设计、基准构建和监督机制如何塑造最新进展,涵盖2D监督的3D学习、隐式神经表示和4D世界建模。通过这一整合视角,我们阐明了表示、学习范式与下游任务在重建、生成和视频建模中的关系,提供了对平衡效率与保真度以及多模态几何基础化新兴趋势的统一看法。
查看arXiv页面 (https://arxiv.org/abs/2606.04291)查看PDF (https://arxiv.org/pdf/2606.04291)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.04291)
在您的代理中获取此论文:
hf papers read 2606\.04291
没有最新CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
在模型README.md中引用arxiv.org/abs/2606.04291以从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集README.md中引用arxiv.org/abs/2606.04291以从此页面链接。
引用此论文的Spaces0
没有Space链接此论文
在Space README.md中引用arxiv.org/abs/2606.04291以从此页面链接。
包含此论文的收藏0
没有包含此论文的收藏
将此论文添加到收藏以从此页面链接。
相似文章
AnyRecon:基于视频扩散模型的任意视角 3D 重建
AnyRecon 提出了一种可扩展框架,利用具备持久场景记忆与几何感知条件的视频扩散模型,从任意稀疏输入进行 3D 重建。
3DCodeBench:通过代码对智能体过程化3D建模进行基准测试
本文介绍了3DCodeBench——一个用于评估视觉语言模型通过代码进行过程化3D建模的基准测试,以及3DCodeArena——一个基于成对人类偏好的排名平台。
超越3D VQA:将3D空间先验注入视觉语言模型以增强几何推理
本文提出GASP框架,通过深度监督结合对比损失和深度一致性损失将几何先验注入视觉语言模型,在3D空间推理基准上取得了显著提升,且无需使用3D VQA数据。
探索视觉嵌入
本文通过生成与特定嵌入方向对应的图像,利用梯度优化和增强策略来反转模型,探索了DINOv3视觉嵌入。
用于鲁棒多视图三维重建的几何感知表示去噪
提出GARD,一种基于扩散的框架,在前馈三维重建器的特征空间中操作,从退化输入中联合恢复场景几何和高质量图像。