3D视觉烹饪书:数据、学习范式与应用

Hugging Face Daily Papers 论文

摘要

本文提出了3D视觉研究的全面分类体系,涵盖几何表示、数据集、学习范式以及在重建、生成和视频建模中的应用。

3D视觉领域发展迅速,其驱动力来自于日益多样化的数据表示、学习范式和建模策略。然而,该领域在表示形式和基准测试方面仍然碎片化,难以形成关于效率、保真度和可扩展性的统一视角。本文提供了一个以数据为中心的3D视觉分类体系,将几何表示、数据集、学习框架和应用连接在同一个概念图中。我们首先分析3D数据的主要结构表示——点云、网格、体素和3D高斯表示——及其采集流程。然后,我们研究数据集设计、基准构建和监督机制如何塑造最新进展,涵盖2D监督的3D学习、隐式神经表示和4D世界建模。通过这种整合视角,我们阐明了表示、学习范式以及在重建、生成和视频建模中的下游任务之间的关系,提供了关于新兴趋势的整合观点,即平衡效率与保真度,以及多模态几何基础。
查看原文
查看缓存全文

缓存时间: 2026/06/08 19:17

论文页面 - 3D视觉菜谱:数据、学习范式与应用

来源:https://huggingface.co/papers/2606.04291 发表于6月2日

·

提交者https://huggingface.co/zli12321

LZX (https://huggingface.co/zli12321)于6月8日

作者:, , , , , , , , ,

摘要

3D视觉研究通过一个分类体系组织,该分类体系将几何表示、数据集、学习框架以及在重建、生成和视频建模任务中的应用联系起来。

3D视觉在日益多样化的数据表示、学习范式和建模策略的推动下迅速发展。然而,该领域在表示和基准测试方面仍然零散,使得难以对效率、保真度和可扩展性形成统一观点。本文提供了一个以数据为中心的3D视觉分类体系,将几何表示、数据集、学习框架和应用整合在单一概念图中。我们首先分析3D数据的主要结构表示——点云网格体素3D高斯——以及它们的获取流程。然后我们审视数据集设计基准构建监督机制如何塑造最新进展,涵盖2D监督的3D学习隐式神经表示4D世界建模。通过这一整合视角,我们阐明了表示、学习范式与下游任务在重建生成视频建模中的关系,提供了对平衡效率与保真度以及多模态几何基础化新兴趋势的统一看法。

查看arXiv页面 (https://arxiv.org/abs/2606.04291)查看PDF (https://arxiv.org/pdf/2606.04291)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.04291)

在您的代理中获取此论文:

hf papers read 2606\.04291

没有最新CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2606.04291以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2606.04291以从此页面链接。

引用此论文的Spaces0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2606.04291以从此页面链接。

包含此论文的收藏0

没有包含此论文的收藏

将此论文添加到收藏以从此页面链接。

相似文章

探索视觉嵌入

Hacker News Top

本文通过生成与特定嵌入方向对应的图像,利用梯度优化和增强策略来反转模型,探索了DINOv3视觉嵌入。