VaaWIT: 面向多语言网页图像翻译的大型语言模型视觉感知适配

Hugging Face Daily Papers 论文

摘要

VaaWIT是一个端到端框架,通过双流注意力和视觉感知适配器增强大型视觉语言模型,用于多语言网页图像翻译,性能优于SOTA基线方法。

翻译网页图像中的嵌入文本对于提高内容可访问性和跨语言信息检索至关重要,尤其是在社交媒体和电子商务领域。尽管大型视觉语言模型(LVLMs)已经推进了多模态理解,但将其应用于网页图像翻译仍然具有挑战性,原因是视觉表征差距:标准编码器往往优先考虑高层语义,而忽略了识别多样化字符形态所需的细粒度视觉细节。为了解决这一挑战,我们提出了VaaWIT,一个端到端框架,用于将大型语言模型适应到多语言网页图像翻译。该框架引入了两项关键技术贡献:(1) 双流注意力模块(DSAM),它促进多语言语义特征与详细视觉表征之间的双向交互,从而合成对文本变化鲁棒的统一特征;(2) 视觉感知适配器(VAA),一种参数高效的微调策略,能够动态地将这些融合的视觉线索注入到冻结的LLM主干中。这种设计使模型能够有效地对齐视觉上下文与语言推理,同时最小化计算成本。在三个公开基准上的八个任务上进行的大量实验表明,VaaWIT显著优于最先进(SOTA)的开源基线,并达到了与专有模型竞争的性能。这些结果验证了将细粒度视觉感知集成到LLMs中进行复杂网页内容分析的有效性。
查看原文
查看缓存全文

缓存时间: 2026/05/26 02:41

论文页面 - VaaWIT:面向多语言网页图像翻译的大语言模型视觉感知适配

来源:https://huggingface.co/papers/2605.24675 发布于 5月23日

·

由 https://huggingface.co/liboaccn 提交

Bo Li (https://huggingface.co/liboaccn) 于5月25日

摘要

VaaWIT 是一个端到端框架,通过双流注意力机制和视觉感知适配器融入细粒度视觉感知,从而增强大型视觉语言模型的多语言网页图像翻译能力。

翻译嵌入在网页图像中的文本,对于提升内容可访问性和跨语言信息检索至关重要,尤其是在社交媒体和电商领域。尽管大型视觉语言模型 (https://huggingface.co/papers?q=Large%20Vision-Language%20Models)(LVLMs)已经推进了多模态理解 (https://huggingface.co/papers?q=multimodal%20understanding),但将其应用于网页图像翻译仍面临视觉表征鸿沟 (https://huggingface.co/papers?q=visual%20representation%20gap) 的挑战:标准编码器往往优先考虑高层语义,而忽略了识别多样字符形态 (https://huggingface.co/papers?q=character%20morphologies) 所需的细粒度视觉细节。为了解决这一挑战,我们提出了 VaaWIT,一个端到端框架,用于适配大语言模型进行多语言网页图像翻译。该框架引入了两项关键技术贡献:(1) 双流注意力模块 (https://huggingface.co/papers?q=Dual-Stream%20Attention%20Module)(DSAM),促进多语言语义特征 (https://huggingface.co/papers?q=multilingual%20semantic%20features) 与详细视觉表征之间的双向交互,从而合成对文本变化鲁棒的统一特征;(2) 视觉感知适配器 (https://huggingface.co/papers?q=Visual-Aware%20Adapter)(VAA),一种参数高效微调 (https://huggingface.co/papers?q=parameter-efficient%20fine-tuning) 策略,将融合后的视觉线索动态注入冻结的 LLM 主干网络。这种设计使模型能够有效对齐视觉上下文与语言推理,同时最小化计算成本。在三个公开基准的八项任务上进行的广泛实验表明,VaaWIT 显著优于最先进的开源基线,并达到了与闭源模型相竞争的性能。这些结果验证了将细粒度视觉感知集成到 LLM 中以进行复杂网页内容分析的有效性。

查看 arXiv 页面 (https://arxiv.org/abs/2605.24675) 查看 PDF (https://arxiv.org/pdf/2605.24675) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.24675)

在你的 agent 中获取此论文:

hf papers read 2605\.24675

没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2605.24675 以从此页面建立链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.24675 以从此页面建立链接。

引用此论文的 Space0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2605.24675 以从此页面建立链接。

包含此论文的收藏集0

没有收藏集包含此论文

添加此论文到收藏集 (https://huggingface.co/new-collection) 以从此页面建立链接。

相似文章

CaVe-VLM-CoT:一个可解释的视觉-语言模型框架

arXiv cs.AI

CaVe-VLM-CoT是一个基于模块化反思的智能体RAG框架,专为视觉-语言模型设计,通过五阶段流水线强制执行基于证据的推理,在ScienceQA上达到87.1%的准确率,并提出了一套包含23项指标的评估体系。

面向 IWSLT 2026 同声传译任务的 MLLP-VRAIN UPV 系统

arXiv cs.CL

本文描述了 MLLP-VRAIN UPV 系统在 IWSLT 2026 同声传译任务中的应用,该系统使用了 Parakeet 和 Qwen 3.5 模型,结合自适应“黑盒”策略和 RAG 机制以获取上下文,实现了显著的质量提升。

大型视觉-语言模型在注意力机制中迷失

arXiv cs.AI

这篇研究论文利用信息论分析了大型视觉-语言模型(LVLM)的内部机制,揭示了注意力机制可能存在冗余,而前馈网络才是推动语义创新的关键。作者证明,将学习到的注意力权重替换为随机值仍可获得相当的性能,这表明当前模型“在注意力中迷失”。

WebWatcher:开辟视觉语言深度研究代理新前沿

Papers with Code Trending

WebWatcher 是一个用于深度研究的多模态代理,它利用合成轨迹和强化学习在复杂的视觉与文本信息检索任务中实现了卓越性能。本文还引入了 BrowseComp-VL,这是一个评估多模态代理的新基准。