αDepth:学习单次软边界分解用于立体转换

Hugging Face Daily Papers 论文

摘要

αDepth 引入了一种带有圆形Alpha表示(CAR)的分层表示,以解决立体转换中的软边界挑战,无需手动指导即可实现最先进的性能。

准确建模软边界(例如头发和散焦模糊)是立体转换中的一个基本挑战,因为前景和背景的混合存在模糊性。现有的深度模型主要预测单层深度,导致在软边界处的深度对应关系不明确。虽然抠图技术可以捕获不透明度以实现分层建模,但它们在包含多个目标的复杂场景中常常遇到困难,并且通常需要用户干预。本文介绍了αDepth,一种分解软边界以进行高保真立体转换的分层表示。具体来说,我们首先通过估计软边界处的分层颜色和深度值来解决混合颜色和深度模糊性。考虑到复杂的多目标场景,我们设计了一种圆形Alpha表示(CAR),将范式从全局目标提取转变为局部边界分解。与仅限于单一前景/背景的先前抠图方法不同,CAR 无需手动指导即可实现高效的场景级推理。大量评估表明,αDepth 在立体转换中达到了最先进的性能,消除了软边界处的背景渗色和结构畸变。
查看原文
查看缓存全文

缓存时间: 2026/06/03 11:37

Paper page - αDepth: Learning Single-Pass Soft Boundary Decomposition for Stereo Conversion

来源:https://huggingface.co/papers/2606.00386

摘要

αDepth 提出了一种基于循环 Alpha 表示(Circular Alpha Representation,CAR)的分层表示,通过局部边界分解与高效场景级推理,解决了立体转换中的软边界挑战。

准确建模软边界(soft boundaries)(https://huggingface.co/papers?q=soft%20boundaries),如毛发和散焦模糊,是立体转换(stereo conversion)(https://huggingface.co/papers?q=stereo%20conversion)中的根本性难题,这是因为前景与背景的混合具有模糊性。现有深度模型主要预测单层深度,导致在软边界(soft boundaries)(https://huggingface.co/papers?q=soft%20boundaries)处深度对应关系模糊。抠图技术(matting techniques)(https://huggingface.co/papers?q=matting%20techniques)虽能捕获不透明度以进行分层建模,但在包含多个目标物的复杂场景中常表现不佳,且通常需要用户交互。本文介绍 αDepth,一种分层表示(layered representation)(https://huggingface.co/papers?q=layered%20representation),通过分解软边界(soft boundaries)(https://huggingface.co/papers?q=soft%20boundaries)来实现高保真立体转换(stereo conversion)(https://huggingface.co/papers?q=stereo%20conversion)。具体地,我们首先通过估计软边界(soft boundaries)(https://huggingface.co/papers?q=soft%20boundaries)处的分层颜色与深度值,解决混合颜色与深度的歧义。针对复杂多目标场景,我们设计了循环 Alpha 表示(Circular Alpha Representation,CAR)(https://huggingface.co/papers?q=Circular%20Alpha%20Representation),将范式从全局目标提取转向局部边界分解。与受限于单一前景/背景的既往抠图方法不同,CAR 无需人工引导即可实现高效的场景级推理(scene-level inference)(https://huggingface.co/papers?q=scene-level%20inference)。大量评估表明,αDepth 在立体转换(stereo conversion)(https://huggingface.co/papers?q=stereo%20conversion)中达到最先进性能,消除了软边界(soft boundaries)(https://huggingface.co/papers?q=soft%20boundaries)处的背景溢出(background bleeding)(https://huggingface.co/papers?q=background%20bleeding)与结构畸变(structural distortions)(https://huggingface.co/papers?q=structural%20distortions)。

查看 arXiv 页面(https://arxiv.org/abs/2606.00386) 查看 PDF(https://arxiv.org/pdf/2606.00386) 添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.00386)

在您的 Agent 中获取本篇论文:

hf papers read 2606.00386

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型0

暂无模型链接本篇论文

请在模型 README.md 中引用 arxiv.org/abs/2606.00386 以从本页链接。

引用本文的数据集0

暂无数据集链接本篇论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.00386 以从本页链接。

引用本文的 Spaces0

暂无 Space 链接本篇论文

请在 Space README.md 中引用 arxiv.org/abs/2606.00386 以从本页链接。

包含本文的收藏集0

暂无收藏集包含本篇论文

请将本论文添加至收藏集(https://huggingface.co/new-collection)以从本页链接。

相似文章

基于多视角基础模型的统一全景几何估计

Hugging Face Daily Papers

PaGeR 适配了多视角透视基础模型 Depth Anything 3,利用固定的立方体贴图表示,从单张等距柱状投影图像中预测尺度不变深度、度量深度、表面法线和天空分割,同时保持 VRAM 和运行时间恒定。本文还发布了 ZüriPano 和 PanoInfinigen 数据集。

通过分解视觉代理的直接3D感知对象插入

Hugging Face Daily Papers

本文介绍了DIRECT,一个用于姿态可控的3D感知对象插入的框架,它将条件分解为外观、几何和上下文引导,以实现具有显式3D姿态控制的高保真合成。

TrackCraft3R: 改造视频扩散变换器用于密集3D追踪

Hugging Face Daily Papers

TrackCraft3R 改造视频扩散变换器,用于从单目视频进行密集3D追踪。它采用双潜在表示和时间RoPE对齐,以比先前方法快1.3倍的速度和少4.6倍的峰值内存,实现了最先进的性能。