高效训练长上下文视觉语言模型，实现超越128K上下文的泛化

Hugging Face Daily Papers 2026/05/13 00:00 论文

long-context vision-language-models pre-training retrieval vqa generalization

摘要

本文系统研究了视觉语言模型的长上下文持续预训练，通过高效的数据混合设计，实现了超越128K上下文的泛化，并介绍了MMProLong模型。

长上下文建模正成为现代大型视觉语言模型（LVLM）的核心能力，能够支持长文档理解、视频分析以及智能体工作流中的多轮工具使用等持续上下文管理场景。然而，实用的训练方案仍缺乏充分探索，特别是在长上下文数据混合的设计与平衡方面。本文系统研究了LVLM的长上下文持续预训练，通过大量消融实验，将7B模型从32K上下文扩展到128K上下文。我们首先发现，长文档VQA显著优于OCR转录。基于这一发现，我们的消融实验进一步得出三个关键结论：（i）在序列长度分布方面，均衡数据优于目标长度聚焦数据（如128K），表明长上下文能力需要跨不同长度和位置的可泛化关键信息检索；（ii）检索仍然是主要瓶颈，因此应优先使用检索密集型混合数据，并辅以少量推理数据以增加任务多样性；（iii）纯长文档VQA在很大程度上保留了短上下文能力，表明指令格式的长数据减少了对短数据混合的需求。基于这些发现，我们引入了MMProLong，该模型通过在Qwen2.5-VL-7B基础上仅使用5B token预算进行长上下文持续预训练得到。MMProLong将长文档VQA分数提升了7.1%，并在其128K训练窗口之外的256K和512K上下文中保持强劲性能，无需额外训练。此外，它还能泛化到基于网页的多模态针检索、长上下文视觉-文本压缩以及长视频理解任务，无需特定任务的监督。总体而言，我们的研究为推进长上下文视觉语言模型提供了一种实用的LongPT方案和经验基础。

查看原文

查看缓存全文

缓存时间: 2026/05/14 04:16

论文页面 - 有效训练长上下文视觉语言模型，泛化能力超越128K上下文

来源: https://huggingface.co/papers/2605.13831 作者:

摘要

长上下文持续预训练通过策略性的数据混合设计，增强了视觉语言模型处理长文档的能力，同时在不同上下文中保持性能。

长上下文建模 (https://huggingface.co/papers?q=Long-context%20modeling) 正成为现代大型视觉语言模型 (https://huggingface.co/papers?q=large%20vision-language%20models) (LVLMs) 的核心能力，能够在长文档理解、视频分析以及智能体工作流中的多轮工具使用中实现持续的上下文管理。然而，实用的训练方案仍未得到充分探索，尤其是在设计和平衡长上下文数据混合方面。在这项工作中，我们对 LVLMs 的长上下文持续预训练 (https://huggingface.co/papers?q=continued%20pre-training) 进行了系统研究，将 7B 模型从 32K 上下文扩展到 128K，并对长文档数据进行了广泛的消融实验。我们首先证明长文档 VQA (https://huggingface.co/papers?q=long-document%20VQA) 比 OCR 转录有效得多。基于这一观察，我们的消融实验进一步得出三个关键发现：i) 对于序列长度分布 (https://huggingface.co/papers?q=sequence-length%20distribution)，平衡的数据优于针对目标长度（如 128K）的数据，这表明长上下文能力需要跨各种长度和位置泛化的关键信息检索能力；ii) 检索仍然是主要瓶颈，因此倾向于使用检索密集型混合 (https://huggingface.co/papers?q=retrieval-heavy%20mixtures) 并辅以适量推理数据以增加任务多样性；iii) 纯长文档 VQA (https://huggingface.co/papers?q=long-document%20VQA) 在很大程度上保留了短上下文能力，这表明指令格式的长数据减少了对短数据混合的需求。基于这些发现，我们提出了 MMProLong，它通过在 Qwen2.5-VL-7B 上进行长上下文持续预训练 (https://huggingface.co/papers?q=continued%20pre-training) 获得，仅使用 5B token 的预算。MMProLong 将长文档 VQA (https://huggingface.co/papers?q=long-document%20VQA) 分数提升了 7.1%，并在其 128K 训练窗口之外的 256K 和 512K 上下文中保持了强劲性能，无需额外训练。它还能进一步泛化到基于网页的多模态针检索 (https://huggingface.co/papers?q=multimodal%20needle%20retrieval)、长上下文视觉文本压缩 (https://huggingface.co/papers?q=vision-text%20compression) 和长视频理解 (https://huggingface.co/papers?q=long-video%20understanding)，无需任务特定的监督。总体而言，我们的研究建立了一个实用的 LongPT 方案，并为推进长上下文视觉语言模型奠定了实证基础。

查看 arXiv 页面 (https://arxiv.org/abs/2605.13831)查看 PDF (https://arxiv.org/pdf/2605.13831)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.13831)

在你的智能体中获取此论文:

hf papers read 2605\.13831

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.13831 以从此页面链接。

引用此论文的数据集0

没有数据集链接到此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.13831 以从此页面链接。

引用此论文的 Spaces0

没有 Space 链接到此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.13831 以从此页面链接。

包含此论文的收藏集0

没有包含此论文的收藏集

请将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 中，以从此页面链接。

高效训练长上下文视觉语言模型，实现超越128K上下文的泛化

论文页面 - 有效训练长上下文视觉语言模型，泛化能力超越128K上下文

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

MemLens：大规模视觉-语言模型中多模态长期记忆的基准测试

检索，而非重新训练：在测试时将视觉语言动作模型扩展到新任务

大规模端到端上下文压缩

LM预训练的泛化动态（阅读时间17分钟）

强化学习激发对未见语言的语境翻译学习

提交意见反馈