解锁VLM中的稠密度量深度估计

Hugging Face Daily Papers 2026/05/15 00:00 论文

摘要

DepthVLM通过轻量级深度头和统一的视觉-文本监督增强了视觉语言模型，实现了稠密度量深度估计和改进的3D空间推理，同时保持了多模态能力。

视觉语言模型（VLMs）在2D任务（如定位和描述）中表现出色，但在3D理解方面仍然有限。一个关键限制是其纯文本监督范式，该范式对细粒度视觉感知的约束不足，并阻止了稠密几何的恢复。先前的方法要么从外部视觉模型蒸馏几何信息，导致误差累积；要么通过低效的逐像素查询或粗粒度的token级输出实现直接预测。在本文中，我们提出了DepthVLM，这是一个简单而有效的框架，它将单个VLM转换为原生稠密几何预测器，同时保留其多模态能力。通过将轻量级深度头附加到LLM主干上，并在统一的视觉-文本监督范式下使用两阶段训练计划，DepthVLM在单次前向传播中生成全分辨率深度图以及语言输出。我们进一步引入了一个统一室内外度量深度基准，采用VLM兼容格式。实验表明，DepthVLM以更高的推理效率显著优于现有VLMs，超越了领先的纯视觉模型，并改进了复杂3D空间推理，朝着真正统一的基座模型迈进。所有代码和检查点将公开发布。

查看原文

查看缓存全文

缓存时间: 2026/05/18 06:24

论文页面 — Unlocking Dense Metric Depth Estimation in VLMs

来源：https://huggingface.co/papers/2605.15876

摘要

DepthVLM 通过轻量级深度头和统一的视觉‑文本监督，增强了视觉‑语言模型的密集几何预测能力，实现了更优的 3D 空间推理同时维持了多模态能力。

视觉‑语言模型 (https://huggingface.co/papers?q=Vision-Language%20Models)（VLMs）在二维任务（如定位与描述）中表现出色，但在三维理解方面仍存在局限。一个关键限制是其纯文本监督范式，该范式对细粒度视觉感知约束不足，且无法恢复密集几何信息 (https://huggingface.co/papers?q=dense%20geometry)。先前的方法要么从外部视觉模型中蒸馏几何信息导致错误累积，要么通过低效的逐像素查询或粗粒度的词元级输出实现直接预测。本文提出 DepthVLM，一个简单而有效的框架，能够将单个 VLM 转换为原生的密集几何 (https://huggingface.co/papers?q=dense%20geometry) 预测器，同时保持其多模态能力。通过在 LLM 骨干上附加轻量级深度头 (https://huggingface.co/papers?q=depth%20head)，并在统一的视觉‑文本监督 (https://huggingface.co/papers?q=vision-text%20supervision) 范式下采用两阶段调度进行训练，DepthVLM 在单次前向传播中同时生成全分辨率深度图和语言输出。我们进一步引入了一个统一室内外度量深度基准（采用 VLM 兼容格式）。实验表明，DepthVLM 显著优于现有 VLM，推理效率更高，超越了领先的纯视觉模型，并改进了复杂的 3D 空间推理 (https://huggingface.co/papers?q=3D%20spatial%20reasoning)，朝着真正的统一基础模型 (https://huggingface.co/papers?q=unified%20foundation%20model) 迈进。所有代码和检查点将公开发布。

查看 arXiv 页面 (https://arxiv.org/abs/2605.15876) 查看 PDF (https://arxiv.org/pdf/2605.15876) 项目页面 (https://depthvlm.github.io/) GitHub (https://github.com/hanxunyu/DepthVLM) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.15876)

在你的 Agent 中获取本文：

hf papers read 2605\.15876

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本文的模型1

JonnyYu828/DepthVLM‑4B 深度估计 • 5B • 约 2 小时前更新 • 10 • 2 (https://huggingface.co/JonnyYu828/DepthVLM-4B)

引用本文的数据集1

JonnyYu828/DepthVLM‑Bench 预览 • 约 2 小时前更新 • 2 (https://huggingface.co/datasets/JonnyYu828/DepthVLM-Bench)

引用本文的 Spaces0

暂无 Spaces 关联此论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2605.15876，以便从此页面关联。

包含本文的收藏0

暂无收藏包含此论文

请将此论文添加到收藏 (https://huggingface.co/new-collection) 中，以便从此页面关联。

解锁VLM中的稠密度量深度估计

论文页面 — Unlocking Dense Metric Depth Estimation in VLMs

摘要

引用本文的模型1

JonnyYu828/DepthVLM‑4B 深度估计 • 5B • 约 2 小时前更新 • 10 • 2 (https://huggingface.co/JonnyYu828/DepthVLM-4B)

引用本文的数据集1

JonnyYu828/DepthVLM‑Bench 预览 • 约 2 小时前更新 • 2 (https://huggingface.co/datasets/JonnyYu828/DepthVLM-Bench)

引用本文的 Spaces0

包含本文的收藏0

相似文章

Stream3D-VLM：基于增量几何先验的在线3D空间理解

LLaVA-UHD v4：高效视觉编码在 MLLMs 中的关键要素是什么？

MetaSpatial：强化VLMs在元宇宙中的3D空间推理

VLM是通过自适应测试时优化进行视频推理的优秀教师

超越3D VQA：将3D空间先验注入视觉语言模型以增强几何推理

提交意见反馈