VaaWIT: 面向多语言网页图像翻译的大型语言模型视觉感知适配

Hugging Face Daily Papers 2026/05/23 00:00 论文

摘要

VaaWIT是一个端到端框架，通过双流注意力和视觉感知适配器增强大型视觉语言模型，用于多语言网页图像翻译，性能优于SOTA基线方法。

翻译网页图像中的嵌入文本对于提高内容可访问性和跨语言信息检索至关重要，尤其是在社交媒体和电子商务领域。尽管大型视觉语言模型（LVLMs）已经推进了多模态理解，但将其应用于网页图像翻译仍然具有挑战性，原因是视觉表征差距：标准编码器往往优先考虑高层语义，而忽略了识别多样化字符形态所需的细粒度视觉细节。为了解决这一挑战，我们提出了VaaWIT，一个端到端框架，用于将大型语言模型适应到多语言网页图像翻译。该框架引入了两项关键技术贡献：(1) 双流注意力模块（DSAM），它促进多语言语义特征与详细视觉表征之间的双向交互，从而合成对文本变化鲁棒的统一特征；(2) 视觉感知适配器（VAA），一种参数高效的微调策略，能够动态地将这些融合的视觉线索注入到冻结的LLM主干中。这种设计使模型能够有效地对齐视觉上下文与语言推理，同时最小化计算成本。在三个公开基准上的八个任务上进行的大量实验表明，VaaWIT显著优于最先进（SOTA）的开源基线，并达到了与专有模型竞争的性能。这些结果验证了将细粒度视觉感知集成到LLMs中进行复杂网页内容分析的有效性。

查看原文

查看缓存全文

缓存时间: 2026/05/26 02:41

论文页面 - VaaWIT：面向多语言网页图像翻译的大语言模型视觉感知适配

来源：https://huggingface.co/papers/2605.24675 发布于 5月23日

由 https://huggingface.co/liboaccn 提交

Bo Li (https://huggingface.co/liboaccn) 于5月25日

摘要

VaaWIT 是一个端到端框架，通过双流注意力机制和视觉感知适配器融入细粒度视觉感知，从而增强大型视觉语言模型的多语言网页图像翻译能力。

翻译嵌入在网页图像中的文本，对于提升内容可访问性和跨语言信息检索至关重要，尤其是在社交媒体和电商领域。尽管大型视觉语言模型 (https://huggingface.co/papers?q=Large%20Vision-Language%20Models)（LVLMs）已经推进了多模态理解 (https://huggingface.co/papers?q=multimodal%20understanding)，但将其应用于网页图像翻译仍面临视觉表征鸿沟 (https://huggingface.co/papers?q=visual%20representation%20gap) 的挑战：标准编码器往往优先考虑高层语义，而忽略了识别多样字符形态 (https://huggingface.co/papers?q=character%20morphologies) 所需的细粒度视觉细节。为了解决这一挑战，我们提出了 VaaWIT，一个端到端框架，用于适配大语言模型进行多语言网页图像翻译。该框架引入了两项关键技术贡献：(1) 双流注意力模块 (https://huggingface.co/papers?q=Dual-Stream%20Attention%20Module)（DSAM），促进多语言语义特征 (https://huggingface.co/papers?q=multilingual%20semantic%20features) 与详细视觉表征之间的双向交互，从而合成对文本变化鲁棒的统一特征；(2) 视觉感知适配器 (https://huggingface.co/papers?q=Visual-Aware%20Adapter)（VAA），一种参数高效微调 (https://huggingface.co/papers?q=parameter-efficient%20fine-tuning) 策略，将融合后的视觉线索动态注入冻结的 LLM 主干网络。这种设计使模型能够有效对齐视觉上下文与语言推理，同时最小化计算成本。在三个公开基准的八项任务上进行的广泛实验表明，VaaWIT 显著优于最先进的开源基线，并达到了与闭源模型相竞争的性能。这些结果验证了将细粒度视觉感知集成到 LLM 中以进行复杂网页内容分析的有效性。

查看 arXiv 页面 (https://arxiv.org/abs/2605.24675) 查看 PDF (https://arxiv.org/pdf/2605.24675) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.24675)

在你的 agent 中获取此论文：

hf papers read 2605\.24675

没有最新 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2605.24675 以从此页面建立链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.24675 以从此页面建立链接。

引用此论文的 Space0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2605.24675 以从此页面建立链接。

包含此论文的收藏集0

没有收藏集包含此论文

添加此论文到收藏集 (https://huggingface.co/new-collection) 以从此页面建立链接。

VaaWIT: 面向多语言网页图像翻译的大型语言模型视觉感知适配

论文页面 - VaaWIT：面向多语言网页图像翻译的大语言模型视觉感知适配

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的收藏集0

相似文章

StableVLA：迈向无需额外数据的稳健视觉-语言-动作模型

CaVe-VLM-CoT：一个可解释的视觉-语言模型框架

面向 IWSLT 2026 同声传译任务的 MLLP-VRAIN UPV 系统

大型视觉-语言模型在注意力机制中迷失

WebWatcher：开辟视觉语言深度研究代理新前沿

提交意见反馈