Lite Any Stereo V2:更快更强的高效零样本立体匹配

Hugging Face Daily Papers 论文

摘要

Lite Any Stereo V2 提出了一种高效的立体匹配方法,通过优化的架构和训练策略(包括仅2D成本聚合框架和三阶段训练策略),在显著降低延迟的同时实现了最先进的精度。

近年来,立体匹配技术取得了显著的精度提升,但往往依赖于大型模型、高计算量或额外的基础模型先验,这使得它们难以部署在资源受限的平台上。相比之下,高效的立体模型推理速度更快,但通常被认为在零样本泛化方面能力较弱。在本文中,我们挑战了这一假设,推出了Lite Any Stereo V2(LAS2),一个专为高效零样本立体匹配设计的超快模型系列。LAS2从架构和训练两个角度进行开发。在架构上,我们重新审视了实际部署场景下的高效立体设计,提出了一个仅2D成本聚合框架,该框架针对实际推理延迟而非仅理论MACs进行了优化。在训练方面,我们开发了一个三阶段策略,结合了合成监督、自蒸馏和真实世界知识蒸馏。为了提高真实世界伪监督的可靠性,我们进一步引入了伪标签过滤和误差钳位操作,从而实现更平滑的合成到真实迁移。我们将LAS2实例化为一个模型家族,包括针对不同效率预算的前馈变体以及一个用于更高精度的迭代变体。大量实验表明,LAS2在高效立体方法中实现了最先进的精度,同时保持了显著更低的延迟。具体来说,LAS2-H实现了比迭代方法Fast-FoundationStereo更强的整体零样本性能,在H200和Orin上推理速度分别快1.8倍和2.7倍。项目页面、演示和代码可在 https://tomtomtommi.github.io/LiteAnyStereoV2/ 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/25 17:13

论文页面 - Lite Any Stereo V2:更快更强的零样本立体匹配方法

来源:https://huggingface.co/papers/2606.24457

摘要

Lite Any Stereo V2 (LAS2) 提出了一种高效的立体匹配方法,通过优化架构和训练策略,在显著降低延迟的同时实现了最先进的精度。

近年来,立体匹配领域(https://huggingface.co/papers?q=stereo%20matching)取得了显著的精度提升,但通常依赖大型模型、大量计算或额外的基础模型先验知识,使其难以部署在资源受限的平台。相比之下,高效立体模型(https://huggingface.co/papers?q=efficient%20stereo%20models)虽然推理速度更快,但通常被认为在零样本泛化(https://huggingface.co/papers?q=zero-shot%20generalization)方面能力较弱。本文通过引入 Lite Any Stereo V2 (LAS2) 挑战了这一假设。LAS2 是一个超快速模型系列,专为零样本立体匹配(https://huggingface.co/papers?q=stereo%20matching)效率优化而设计。LAS2 从架构和训练两个角度进行了开发:架构方面,我们重新审视了实用部署场景下的高效立体设计,提出了一个纯 2D 代价聚合框架(https://huggingface.co/papers?q=cost%20aggregation%20framework),针对实际推理延迟而非理论 MACs 进行了优化;训练方面,我们设计了包含合成监督(https://huggingface.co/papers?q=synthetic%20supervision)、自蒸馏(https://huggingface.co/papers?q=self-distillation)和真实世界知识蒸馏(https://huggingface.co/papers?q=knowledge%20distillation)的三阶段训练策略。为了提升真实世界伪监督的可靠性,我们还引入了伪标签过滤(https://huggingface.co/papers?q=pseudo-label%20filtering)和误差裁剪(https://huggingface.co/papers?q=error-clamping)操作,实现了更平滑的合成到真实迁移。我们将 LAS2 实例化为一个模型系列,包括针对不同效率预算的前馈变体(https://huggingface.co/papers?q=feed-forward%20variants)以及追求更高精度的迭代变体(https://huggingface.co/papers?q=iterative%20variant)。大量实验表明,LAS2 在保持显著更低延迟的同时,在高效立体方法中实现了最先进的精度。具体来说,LAS2-H 在零样本性能上整体优于迭代方法 Fast-FoundationStereo,在 H200 和 Orin 上的推理速度分别快 1.8 倍和 2.7 倍。项目页面、演示和代码详见:https://tomtomtommi.github.io/LiteAnyStereoV2/。

查看 arXiv 页面(https://arxiv.org/abs/2606.24457)| 查看 PDF(https://arxiv.org/pdf/2606.24457)| 项目页面(https://tomtomtommi.github.io/LiteAnyStereoV2/)| GitHub99(https://github.com/TomTomTommi/LiteAnyStereo)| 添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.24457)

在您的智能体中获取本文:

hf papers read 2606.24457

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型 0

暂无模型关联本文

请在模型 README.md 中引用 arxiv.org/abs/2606.24457,即可与本页面建立链接。

引用本文的数据集 0

暂无数据集关联本文

请在数据集 README.md 中引用 arxiv.org/abs/2606.24457,即可与本页面建立链接。

引用本文的 Space 0

暂无 Space 关联本文

请在 Space README.md 中引用 arxiv.org/abs/2606.24457,即可与本页面建立链接。

包含本文的收藏集 0

暂无包含本文的收藏集

将本文添加至收藏集(https://huggingface.co/new-collection)即可与本页面建立链接。

相似文章

Lite3R:一种高效的模型无关前馈3D重建框架

Hugging Face Daily Papers

Lite3R 是一个模型无关框架,通过稀疏线性注意力和 FP8 感知量化,提升了基于 Transformer 的 3D 重建效率。在保持 VGGT 和 DA3-Large 等主干网络几何精度的同时,它将延迟和内存占用降低了高达 2.4 倍。

LiteFrame: 高效视觉编码器解锁视频大语言模型的帧缩放

Hugging Face Daily Papers

LiteFrame提出了一种轻量级视频编码器,采用压缩令牌蒸馏(Compressed Token Distillation)训练,可降低延迟,并使视频大语言模型能够处理8倍以上的帧数以实现长视频理解,在降低计算量的同时提高准确性。

LiteFrame 扩展视频大语言模型效率(6分钟阅读)

TLDR AI

LiteFrame 为视频大语言模型引入了一种高效的视频编码器,采用压缩令牌蒸馏技术,在保持准确率的同时,能够处理多达8倍的帧数并降低35%的延迟,为长视频理解开创了新的帕累托前沿。