高效训练长上下文视觉语言模型,实现超越128K上下文的泛化
摘要
本文系统研究了视觉语言模型的长上下文持续预训练,通过高效的数据混合设计,实现了超越128K上下文的泛化,并介绍了MMProLong模型。
查看缓存全文
缓存时间: 2026/05/14 04:16
论文页面 - 有效训练长上下文视觉语言模型,泛化能力超越128K上下文
来源: https://huggingface.co/papers/2605.13831 作者:
,
,
,
,
,
,
,
,
,
,
摘要
长上下文持续预训练通过策略性的数据混合设计,增强了视觉语言模型处理长文档的能力,同时在不同上下文中保持性能。
长上下文建模 (https://huggingface.co/papers?q=Long-context%20modeling) 正成为现代大型视觉语言模型 (https://huggingface.co/papers?q=large%20vision-language%20models) (LVLMs) 的核心能力,能够在长文档理解、视频分析以及智能体工作流中的多轮工具使用中实现持续的上下文管理。然而,实用的训练方案仍未得到充分探索,尤其是在设计和平衡长上下文数据混合方面。在这项工作中,我们对 LVLMs 的长上下文持续预训练 (https://huggingface.co/papers?q=continued%20pre-training) 进行了系统研究,将 7B 模型从 32K 上下文扩展到 128K,并对长文档数据进行了广泛的消融实验。我们首先证明长文档 VQA (https://huggingface.co/papers?q=long-document%20VQA) 比 OCR 转录有效得多。基于这一观察,我们的消融实验进一步得出三个关键发现:i) 对于序列长度分布 (https://huggingface.co/papers?q=sequence-length%20distribution),平衡的数据优于针对目标长度(如 128K)的数据,这表明长上下文能力需要跨各种长度和位置泛化的关键信息检索能力;ii) 检索仍然是主要瓶颈,因此倾向于使用检索密集型混合 (https://huggingface.co/papers?q=retrieval-heavy%20mixtures) 并辅以适量推理数据以增加任务多样性;iii) 纯长文档 VQA (https://huggingface.co/papers?q=long-document%20VQA) 在很大程度上保留了短上下文能力,这表明指令格式的长数据减少了对短数据混合的需求。基于这些发现,我们提出了 MMProLong,它通过在 Qwen2.5-VL-7B 上进行长上下文持续预训练 (https://huggingface.co/papers?q=continued%20pre-training) 获得,仅使用 5B token 的预算。MMProLong 将长文档 VQA (https://huggingface.co/papers?q=long-document%20VQA) 分数提升了 7.1%,并在其 128K 训练窗口之外的 256K 和 512K 上下文中保持了强劲性能,无需额外训练。它还能进一步泛化到基于网页的多模态针检索 (https://huggingface.co/papers?q=multimodal%20needle%20retrieval)、长上下文视觉文本压缩 (https://huggingface.co/papers?q=vision-text%20compression) 和长视频理解 (https://huggingface.co/papers?q=long-video%20understanding),无需任务特定的监督。总体而言,我们的研究建立了一个实用的 LongPT 方案,并为推进长上下文视觉语言模型奠定了实证基础。
查看 arXiv 页面 (https://arxiv.org/abs/2605.13831)查看 PDF (https://arxiv.org/pdf/2605.13831)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.13831)
在你的智能体中获取此论文:
hf papers read 2605\.13831
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接到此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.13831 以从此页面链接。
引用此论文的数据集0
没有数据集链接到此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.13831 以从此页面链接。
引用此论文的 Spaces0
没有 Space 链接到此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.13831 以从此页面链接。
包含此论文的收藏集0
没有包含此论文的收藏集
请将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 中,以从此页面链接。
相似文章
MemLens:大规模视觉-语言模型中多模态长期记忆的基准测试
MemLens是一个新的基准测试,通过多轮对话评估大规模视觉-语言模型的记忆能力。它比较了长上下文和记忆增强方法,揭示了二者的局限性,并推动了混合架构的发展。
检索,而非重新训练:在测试时将视觉语言动作模型扩展到新任务
本文介绍了一种检索增强的视觉-语言-动作策略,通过使用预训练模型和索引演示,消除了每个任务的微调,实现了高效的跨本体泛化和测试时的任务适应。
大规模端到端上下文压缩
本文提出隐上下文语言模型(LCLMs),这是一系列编码器-解码器压缩器,通过架构搜索和大规模预训练高效处理长上下文,在准确性、速度和内存使用上优于传统KV缓存方法。
LM预训练的泛化动态(阅读时间17分钟)
本文揭示,在预训练过程中,语言模型会频繁且突然地在模式匹配与泛化行为之间切换,这种现象被称为“模式跳跃”(mode-hopping),并提出了一个用于研究该现象的小型评估套件。
强化学习激发对未见语言的语境翻译学习
本文提出了一种强化学习方法,使大型语言模型能够通过利用上下文中的语言知识来翻译未见过的语言,其表现优于上下文学习和监督微调。