解锁VLM中的稠密度量深度估计

Hugging Face Daily Papers 论文

摘要

DepthVLM通过轻量级深度头和统一的视觉-文本监督增强了视觉语言模型,实现了稠密度量深度估计和改进的3D空间推理,同时保持了多模态能力。

视觉语言模型(VLMs)在2D任务(如定位和描述)中表现出色,但在3D理解方面仍然有限。一个关键限制是其纯文本监督范式,该范式对细粒度视觉感知的约束不足,并阻止了稠密几何的恢复。先前的方法要么从外部视觉模型蒸馏几何信息,导致误差累积;要么通过低效的逐像素查询或粗粒度的token级输出实现直接预测。在本文中,我们提出了DepthVLM,这是一个简单而有效的框架,它将单个VLM转换为原生稠密几何预测器,同时保留其多模态能力。通过将轻量级深度头附加到LLM主干上,并在统一的视觉-文本监督范式下使用两阶段训练计划,DepthVLM在单次前向传播中生成全分辨率深度图以及语言输出。我们进一步引入了一个统一室内外度量深度基准,采用VLM兼容格式。实验表明,DepthVLM以更高的推理效率显著优于现有VLMs,超越了领先的纯视觉模型,并改进了复杂3D空间推理,朝着真正统一的基座模型迈进。所有代码和检查点将公开发布。
查看原文
查看缓存全文

缓存时间: 2026/05/18 06:24

论文页面 — Unlocking Dense Metric Depth Estimation in VLMs

来源:https://huggingface.co/papers/2605.15876

摘要

DepthVLM 通过轻量级深度头和统一的视觉‑文本监督,增强了视觉‑语言模型的密集几何预测能力,实现了更优的 3D 空间推理同时维持了多模态能力。

视觉‑语言模型 (https://huggingface.co/papers?q=Vision-Language%20Models)(VLMs)在二维任务(如定位与描述)中表现出色,但在三维理解方面仍存在局限。一个关键限制是其纯文本监督范式,该范式对细粒度视觉感知约束不足,且无法恢复密集几何信息 (https://huggingface.co/papers?q=dense%20geometry)。先前的方法要么从外部视觉模型中蒸馏几何信息导致错误累积,要么通过低效的逐像素查询或粗粒度的词元级输出实现直接预测。本文提出 DepthVLM,一个简单而有效的框架,能够将单个 VLM 转换为原生的密集几何 (https://huggingface.co/papers?q=dense%20geometry) 预测器,同时保持其多模态能力。通过在 LLM 骨干上附加轻量级深度头 (https://huggingface.co/papers?q=depth%20head),并在统一的视觉‑文本监督 (https://huggingface.co/papers?q=vision-text%20supervision) 范式下采用两阶段调度进行训练,DepthVLM 在单次前向传播中同时生成全分辨率深度图和语言输出。我们进一步引入了一个统一室内外度量深度基准(采用 VLM 兼容格式)。实验表明,DepthVLM 显著优于现有 VLM,推理效率更高,超越了领先的纯视觉模型,并改进了复杂的 3D 空间推理 (https://huggingface.co/papers?q=3D%20spatial%20reasoning),朝着真正的统一基础模型 (https://huggingface.co/papers?q=unified%20foundation%20model) 迈进。所有代码和检查点将公开发布。

查看 arXiv 页面 (https://arxiv.org/abs/2605.15876) 查看 PDF (https://arxiv.org/pdf/2605.15876) 项目页面 (https://depthvlm.github.io/) GitHub (https://github.com/hanxunyu/DepthVLM) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.15876)

在你的 Agent 中获取本文:

hf papers read 2605\.15876

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本文的模型1

JonnyYu828/DepthVLM‑4B 深度估计 • 5B • 约 2 小时前更新 • 10 • 2 (https://huggingface.co/JonnyYu828/DepthVLM-4B)

引用本文的数据集1

JonnyYu828/DepthVLM‑Bench 预览 • 约 2 小时前更新 • 2 (https://huggingface.co/datasets/JonnyYu828/DepthVLM-Bench)

引用本文的 Spaces0

暂无 Spaces 关联此论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2605.15876,以便从此页面关联。

包含本文的收藏0

暂无收藏包含此论文

请将此论文添加到收藏 (https://huggingface.co/new-collection) 中,以便从此页面关联。

相似文章

LLaVA-UHD v4:高效视觉编码在 MLLMs 中的关键要素是什么?

Hugging Face Daily Papers

本文介绍了 LLaVA-UHD v4,该模型通过采用基于切片(slice-based)的编码和 ViT 内部早期压缩,提高了多模态大语言模型中的视觉编码效率。它在保持或提升高分辨率图像任务性能的同时,将计算成本降低了 55% 以上。

大型视觉-语言模型在注意力机制中迷失

arXiv cs.AI

这篇研究论文利用信息论分析了大型视觉-语言模型(LVLM)的内部机制,揭示了注意力机制可能存在冗余,而前馈网络才是推动语义创新的关键。作者证明,将学习到的注意力权重替换为随机值仍可获得相当的性能,这表明当前模型“在注意力中迷失”。