面向智能体与多模态大语言模型的上下文感知强化学习

Hugging Face Daily Papers 2026/06/15 00:00 论文

reinforcement-learning context-aware agentic multimodal large-language-models reasoning

摘要

介绍了ContextRL，一种强化学习方法，教会大语言模型识别哪些上下文支持答案，在智能体和多模态基准上取得了性能提升。

大语言模型（LLMs）在回答需要从长文本或复杂上下文中识别微小但关键的证据时常常失败，例如工具轨迹中的一行代码或图像中的细微细节。我们提出了ContextRL，一种上下文感知的强化学习（RL）方法，通过间接辅助目标来提升长程推理和多模态性能。ContextRL不仅监督最终答案，还向模型提供查询、答案和两个高度相似的上下文，并奖励其选择支持查询-答案对的上下文，从而鼓励细粒度对齐。我们在两个领域构建了对比上下文数据：对于编码智能体，轨迹作为上下文，通过条件过滤构建了1000对；对于多模态推理，图像作为上下文，通过生成式编辑和相似性搜索构建了7000对。ContextRL在5个长程基准上比标准GRPO平均提升+2.2%，在12个多样化的视觉问答基准上平均提升+1.8%。为了区分所提目标与额外数据的影响，我们与数据增强基线进行了比较，这些基线将相同的对比上下文重新用作标准的查询-上下文-答案示例。这些基线几乎没有带来改进，表明性能提升源自所提出的上下文选择目标，而非仅靠对比数据。

查看原文

查看缓存全文

缓存时间: 2026/06/20 14:26

论文页面 - Context-Aware RL for Agentic and Multimodal LLMs

Source: https://huggingface.co/papers/2606.17053 Context-Aware RL for Agentic and Multimodal LLMs

👉 LLMs 经常失败，不是因为答案不可能，而是因为它们错过了隐藏在长文本或图像中的关键线索。

🔥 我们提出 ContextRL：一种强化学习方法，训练模型识别哪些上下文真正支持答案。

✅ 在 5 个智能体基准测试上提高 +2.2% ✅ 在 12 个 VQA 基准测试上提高 +1.8% ✅ 适用于编码智能体和多模态推理 ✅ 相同的对比数据，但目标更优——不是数据增强

🧠 核心理念：不要只奖励最终答案，还要奖励模型将答案建立在正确证据上的行为。

面向智能体与多模态大语言模型的上下文感知强化学习

论文页面 - Context-Aware RL for Agentic and Multimodal LLMs

相似文章

面向长周期任务的智能体兼容上下文管理

GoLongRL：面向能力的长上下文强化学习与多任务对齐

从历史到状态：面向 LLM 智能体的恒定上下文技能学习

从受训者到训练者：LLM为多智能体推理强化学习设计的训练环境

决策感知记忆卡：面向工具使用LLM代理的反事实启发式上下文选择与压缩

提交意见反馈