ViQ:任意分辨率下的文本对齐视觉量化表示
摘要
ViQ提出了一种视觉量化框架,在离散表示中平衡了语义丰富性和细节保留,通过文本对齐预训练和邻近表示学习,支持原生分辨率输入,实现高效的多模态训练。
查看缓存全文
缓存时间: 2026/06/26 06:05
论文页 - ViQ:任意分辨率下文本对齐的视觉量化表示
来源:https://huggingface.co/papers/2606.27313
摘要
ViQ 提出了一种视觉量化框架,在离散表示中平衡语义丰富度与细节保留,从而支持原生分辨率输入的高效多模态训练。
为文本和视觉建立统一表示是一项自然的追求,因为它能简化多模态建模 (https://huggingface.co/papers?q=multimodal%20modeling) 并实现更高效的训练。然而,将图像表示成与文本类似的离散信号,不可避免地会造成严重的信息丢失。现有工作难以在离散表示 (https://huggingface.co/papers?q=discrete%20representations) 中平衡低层细节与高层语义:面向重建的表示往往缺乏语义信息,而语义更强的特征又通常会损失大量细节。我们提出 ViQ,一种视觉量化表示 (https://huggingface.co/papers?q=Visual%20Quantized%20Representations) 框架,旨在平衡离散表示 (https://huggingface.co/papers?q=discrete%20representations) 中的语义与细节,同时支持原生分辨率输入,从而使其能够作为任意视觉输入的统一通用离散表示。我们的方法将量化学习结构化为两个阶段:文本对齐预训练 (https://huggingface.co/papers?q=text-aligned%20pre-training) 和特征离散化 (https://huggingface.co/papers?q=feature%20discretization)。通过文本对齐预训练,我们从预训练语言模型中为视觉编码器增强富含语义的监督信号,并使其能够处理原生分辨率视觉输入。在离散化过程中,我们提出了一种近端表示学习 (https://huggingface.co/papers?q=proximal%20representation%20learning) 策略来逐步压缩特征空间,同时引入位置感知的头部分量化 (https://huggingface.co/papers?q=position-aware%20head-wise%20quantization) 机制,可以灵活处理任意分辨率。在多模态任务上的大量实验表明,ViQ 在低层重建 (https://huggingface.co/papers?q=low-level%20reconstruction) 中保持高精度的同时,与使用连续高维视觉特征的最先进多模态视觉编码器相比,取得了具有竞争力的性能。我们还展示了,使用视觉量化表示 (https://huggingface.co/papers?q=visual%20quantized%20representations) 进行多模态训练能大幅提高效率,在不同基础大语言模型和训练方案下可实现 20%–70% 的加速。
查看 arXiv 页面 (https://arxiv.org/abs/2606.27313)查看 PDF (https://arxiv.org/pdf/2606.27313)GitHub (https://github.com/yuxumin/ViQ)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.27313)
在您的 Agent 中获取此论文:
hf papers read 2606.27313
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型关联此论文
在模型 README.md 中引用 arxiv.org/abs/2606.27313 即可从此页面链接该模型。
引用此论文的数据集0
没有数据集关联此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.27313 即可从此页面链接该数据集。
引用此论文的Space0
没有 Space 关联此论文
在 Space README.md 中引用 arxiv.org/abs/2606.27313 即可从此页面链接该 Space。
包含此论文的收藏0
没有收藏包含此论文
将此论文添加到收藏 (https://huggingface.co/new-collection) 即可从此页面链接该收藏。
相似文章
Channel-wise Vector Quantization
通道级向量量化(Channel-wise Vector Quantization, CVQ)用通道级标记替换块级标记进行图像标记化,实现了一个下一通道预测框架(CAR),该框架通过逐步细化视觉细节生成图像,在重建和文本到图像生成性能上表现出色。
Qwen-Image-VAE-2.0 技术报告
Qwen-Image-VAE-2.0 是一个高压缩变分自编码器套件,通过增强的架构、大规模训练和语义对齐策略,提升了重建保真度和可扩散性。
先连续后离散:解决维度坍塌问题的VQ-VAE
本文探讨了VQ-VAE中常见的维度坍塌问题,指出模型表示通常局限于低维子空间。研究提出了一种“自编码器预热(AE Warm-Up)”策略,即首先将模型作为未量化的自编码器进行训练,从而提升重建质量并增加潜在空间的有效维度。
UniSVQ: 2-bit统一标量-向量量化
UniSVQ提出了一种统一的2位量化框架,通过将码字参数化为整数格点的仿射变换,桥接了标量量化与向量量化,在标量方法中达到了最先进水平,并与向量方法性能相当且具有更高的吞吐量。
LC-QAT:基于线性约束向量量化的数据高效2比特LLM量化感知训练
提出LC-QAT,一种用于大语言模型的2比特仅权重量化感知训练框架,通过学习仿射映射实现端到端训练,仅使用0.1%–10%的训练数据即达到最优结果。