ViQ：任意分辨率下的文本对齐视觉量化表示

Hugging Face Daily Papers 2026/06/25 00:00 论文

摘要

ViQ提出了一种视觉量化框架，在离散表示中平衡了语义丰富性和细节保留，通过文本对齐预训练和邻近表示学习，支持原生分辨率输入，实现高效的多模态训练。

文本与视觉的统一表示是一个自然的追求，因为它能够简化多模态建模并提高训练效率。然而，像处理文本一样将图像表示为离散信号会不可避免地导致严重的信息损失。现有工作难以在离散表示中平衡低级细节和高级语义：面向重建的表示通常缺乏语义信息，而语义更强的特征则往往丢失大量细节。我们提出了ViQ，一种视觉量化表示框架，旨在平衡离散表示中的语义与细节，同时支持原生分辨率输入，从而使其能够作为任意视觉输入的通用离散表示。我们的方法将量化学习分为两个阶段：文本对齐预训练和特征离散化。通过文本对齐预训练，我们利用预训练语言模型增强了视觉编码器的语义丰富监督，并使其能够处理原生分辨率的视觉输入。在离散化过程中，我们提出了一种邻近表示学习策略来逐步压缩特征空间，并结合位置感知的头部量化机制，灵活处理任意分辨率。在多模态任务上的大量实验表明，与使用连续高维视觉特征的最先进多模态视觉编码器相比，ViQ取得了有竞争力的性能，同时在低级重建中保持了高精度。我们还表明，使用视觉量化表示进行多模态训练可以大幅提高效率，在不同的基础LLM和训练方案下，加速效果可达20%至70%。

查看原文

查看缓存全文

缓存时间: 2026/06/26 06:05

论文页 - ViQ：任意分辨率下文本对齐的视觉量化表示

来源：https://huggingface.co/papers/2606.27313

摘要

ViQ 提出了一种视觉量化框架，在离散表示中平衡语义丰富度与细节保留，从而支持原生分辨率输入的高效多模态训练。

为文本和视觉建立统一表示是一项自然的追求，因为它能简化多模态建模 (https://huggingface.co/papers?q=multimodal%20modeling) 并实现更高效的训练。然而，将图像表示成与文本类似的离散信号，不可避免地会造成严重的信息丢失。现有工作难以在离散表示 (https://huggingface.co/papers?q=discrete%20representations) 中平衡低层细节与高层语义：面向重建的表示往往缺乏语义信息，而语义更强的特征又通常会损失大量细节。我们提出 ViQ，一种视觉量化表示 (https://huggingface.co/papers?q=Visual%20Quantized%20Representations) 框架，旨在平衡离散表示 (https://huggingface.co/papers?q=discrete%20representations) 中的语义与细节，同时支持原生分辨率输入，从而使其能够作为任意视觉输入的统一通用离散表示。我们的方法将量化学习结构化为两个阶段：文本对齐预训练 (https://huggingface.co/papers?q=text-aligned%20pre-training) 和特征离散化 (https://huggingface.co/papers?q=feature%20discretization)。通过文本对齐预训练，我们从预训练语言模型中为视觉编码器增强富含语义的监督信号，并使其能够处理原生分辨率视觉输入。在离散化过程中，我们提出了一种近端表示学习 (https://huggingface.co/papers?q=proximal%20representation%20learning) 策略来逐步压缩特征空间，同时引入位置感知的头部分量化 (https://huggingface.co/papers?q=position-aware%20head-wise%20quantization) 机制，可以灵活处理任意分辨率。在多模态任务上的大量实验表明，ViQ 在低层重建 (https://huggingface.co/papers?q=low-level%20reconstruction) 中保持高精度的同时，与使用连续高维视觉特征的最先进多模态视觉编码器相比，取得了具有竞争力的性能。我们还展示了，使用视觉量化表示 (https://huggingface.co/papers?q=visual%20quantized%20representations) 进行多模态训练能大幅提高效率，在不同基础大语言模型和训练方案下可实现 20%–70% 的加速。

查看 arXiv 页面 (https://arxiv.org/abs/2606.27313)查看 PDF (https://arxiv.org/pdf/2606.27313)GitHub (https://github.com/yuxumin/ViQ)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.27313)

在您的 Agent 中获取此论文：

hf papers read 2606.27313

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2606.27313 即可从此页面链接该模型。

引用此论文的数据集0

没有数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.27313 即可从此页面链接该数据集。

引用此论文的Space0

没有 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2606.27313 即可从此页面链接该 Space。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到收藏 (https://huggingface.co/new-collection) 即可从此页面链接该收藏。

ViQ：任意分辨率下的文本对齐视觉量化表示

论文页 - ViQ：任意分辨率下文本对齐的视觉量化表示

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏0

相似文章

Channel-wise Vector Quantization

Qwen-Image-VAE-2.0 技术报告

先连续后离散：解决维度坍塌问题的VQ-VAE

UniSVQ: 2-bit统一标量-向量量化

LC-QAT：基于线性约束向量量化的数据高效2比特LLM量化感知训练

提交意见反馈