ViQ:任意分辨率下的文本对齐视觉量化表示

Hugging Face Daily Papers 论文

摘要

ViQ提出了一种视觉量化框架,在离散表示中平衡了语义丰富性和细节保留,通过文本对齐预训练和邻近表示学习,支持原生分辨率输入,实现高效的多模态训练。

文本与视觉的统一表示是一个自然的追求,因为它能够简化多模态建模并提高训练效率。然而,像处理文本一样将图像表示为离散信号会不可避免地导致严重的信息损失。现有工作难以在离散表示中平衡低级细节和高级语义:面向重建的表示通常缺乏语义信息,而语义更强的特征则往往丢失大量细节。我们提出了ViQ,一种视觉量化表示框架,旨在平衡离散表示中的语义与细节,同时支持原生分辨率输入,从而使其能够作为任意视觉输入的通用离散表示。我们的方法将量化学习分为两个阶段:文本对齐预训练和特征离散化。通过文本对齐预训练,我们利用预训练语言模型增强了视觉编码器的语义丰富监督,并使其能够处理原生分辨率的视觉输入。在离散化过程中,我们提出了一种邻近表示学习策略来逐步压缩特征空间,并结合位置感知的头部量化机制,灵活处理任意分辨率。在多模态任务上的大量实验表明,与使用连续高维视觉特征的最先进多模态视觉编码器相比,ViQ取得了有竞争力的性能,同时在低级重建中保持了高精度。我们还表明,使用视觉量化表示进行多模态训练可以大幅提高效率,在不同的基础LLM和训练方案下,加速效果可达20%至70%。
查看原文
查看缓存全文

缓存时间: 2026/06/26 06:05

论文页 - ViQ:任意分辨率下文本对齐的视觉量化表示

来源:https://huggingface.co/papers/2606.27313

摘要

ViQ 提出了一种视觉量化框架,在离散表示中平衡语义丰富度与细节保留,从而支持原生分辨率输入的高效多模态训练。

为文本和视觉建立统一表示是一项自然的追求,因为它能简化多模态建模 (https://huggingface.co/papers?q=multimodal%20modeling) 并实现更高效的训练。然而,将图像表示成与文本类似的离散信号,不可避免地会造成严重的信息丢失。现有工作难以在离散表示 (https://huggingface.co/papers?q=discrete%20representations) 中平衡低层细节与高层语义:面向重建的表示往往缺乏语义信息,而语义更强的特征又通常会损失大量细节。我们提出 ViQ,一种视觉量化表示 (https://huggingface.co/papers?q=Visual%20Quantized%20Representations) 框架,旨在平衡离散表示 (https://huggingface.co/papers?q=discrete%20representations) 中的语义与细节,同时支持原生分辨率输入,从而使其能够作为任意视觉输入的统一通用离散表示。我们的方法将量化学习结构化为两个阶段:文本对齐预训练 (https://huggingface.co/papers?q=text-aligned%20pre-training) 和特征离散化 (https://huggingface.co/papers?q=feature%20discretization)。通过文本对齐预训练,我们从预训练语言模型中为视觉编码器增强富含语义的监督信号,并使其能够处理原生分辨率视觉输入。在离散化过程中,我们提出了一种近端表示学习 (https://huggingface.co/papers?q=proximal%20representation%20learning) 策略来逐步压缩特征空间,同时引入位置感知的头部分量化 (https://huggingface.co/papers?q=position-aware%20head-wise%20quantization) 机制,可以灵活处理任意分辨率。在多模态任务上的大量实验表明,ViQ 在低层重建 (https://huggingface.co/papers?q=low-level%20reconstruction) 中保持高精度的同时,与使用连续高维视觉特征的最先进多模态视觉编码器相比,取得了具有竞争力的性能。我们还展示了,使用视觉量化表示 (https://huggingface.co/papers?q=visual%20quantized%20representations) 进行多模态训练能大幅提高效率,在不同基础大语言模型和训练方案下可实现 20%–70% 的加速。

查看 arXiv 页面 (https://arxiv.org/abs/2606.27313)查看 PDF (https://arxiv.org/pdf/2606.27313)GitHub (https://github.com/yuxumin/ViQ)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.27313)

在您的 Agent 中获取此论文:

hf papers read 2606.27313

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2606.27313 即可从此页面链接该模型。

引用此论文的数据集0

没有数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.27313 即可从此页面链接该数据集。

引用此论文的Space0

没有 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2606.27313 即可从此页面链接该 Space。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到收藏 (https://huggingface.co/new-collection) 即可从此页面链接该收藏。

相似文章

Channel-wise Vector Quantization

Hugging Face Daily Papers

通道级向量量化(Channel-wise Vector Quantization, CVQ)用通道级标记替换块级标记进行图像标记化,实现了一个下一通道预测框架(CAR),该框架通过逐步细化视觉细节生成图像,在重建和文本到图像生成性能上表现出色。

Qwen-Image-VAE-2.0 技术报告

Hugging Face Daily Papers

Qwen-Image-VAE-2.0 是一个高压缩变分自编码器套件,通过增强的架构、大规模训练和语义对齐策略,提升了重建保真度和可扩散性。

先连续后离散:解决维度坍塌问题的VQ-VAE

arXiv cs.LG

本文探讨了VQ-VAE中常见的维度坍塌问题,指出模型表示通常局限于低维子空间。研究提出了一种“自编码器预热(AE Warm-Up)”策略,即首先将模型作为未量化的自编码器进行训练,从而提升重建质量并增加潜在空间的有效维度。

UniSVQ: 2-bit统一标量-向量量化

arXiv cs.CL

UniSVQ提出了一种统一的2位量化框架,通过将码字参数化为整数格点的仿射变换,桥接了标量量化与向量量化,在标量方法中达到了最先进水平,并与向量方法性能相当且具有更高的吞吐量。