面向智能体与多模态大语言模型的上下文感知强化学习

Hugging Face Daily Papers 论文

摘要

介绍了ContextRL,一种强化学习方法,教会大语言模型识别哪些上下文支持答案,在智能体和多模态基准上取得了性能提升。

大语言模型(LLMs)在回答需要从长文本或复杂上下文中识别微小但关键的证据时常常失败,例如工具轨迹中的一行代码或图像中的细微细节。我们提出了ContextRL,一种上下文感知的强化学习(RL)方法,通过间接辅助目标来提升长程推理和多模态性能。ContextRL不仅监督最终答案,还向模型提供查询、答案和两个高度相似的上下文,并奖励其选择支持查询-答案对的上下文,从而鼓励细粒度对齐。我们在两个领域构建了对比上下文数据:对于编码智能体,轨迹作为上下文,通过条件过滤构建了1000对;对于多模态推理,图像作为上下文,通过生成式编辑和相似性搜索构建了7000对。ContextRL在5个长程基准上比标准GRPO平均提升+2.2%,在12个多样化的视觉问答基准上平均提升+1.8%。为了区分所提目标与额外数据的影响,我们与数据增强基线进行了比较,这些基线将相同的对比上下文重新用作标准的查询-上下文-答案示例。这些基线几乎没有带来改进,表明性能提升源自所提出的上下文选择目标,而非仅靠对比数据。
查看原文
查看缓存全文

缓存时间: 2026/06/20 14:26

论文页面 - Context-Aware RL for Agentic and Multimodal LLMs

Source: https://huggingface.co/papers/2606.17053 Context-Aware RL for Agentic and Multimodal LLMs

👉 LLMs 经常失败,不是因为答案不可能,而是因为它们错过了隐藏在长文本或图像中的关键线索。

🔥 我们提出 ContextRL:一种强化学习方法,训练模型识别哪些上下文真正支持答案。

✅ 在 5 个智能体基准测试上提高 +2.2% ✅ 在 12 个 VQA 基准测试上提高 +1.8% ✅ 适用于编码智能体和多模态推理 ✅ 相同的对比数据,但目标更优——不是数据增强

🧠 核心理念:不要只奖励最终答案,还要奖励模型将答案建立在正确证据上的行为。

相似文章

面向长周期任务的智能体兼容上下文管理

arXiv cs.AI

介绍AdaCoM,一种基于外部LLM的上下文管理器,适用于冻结的智能体。通过保留任务约束和修剪过时内容,利用强化学习提升长周期任务性能,并在网络搜索和深度研究基准上进行了实验。

从历史到状态:面向 LLM 智能体的恒定上下文技能学习

arXiv cs.AI

本文介绍了“恒定上下文技能学习”,这是一种将程序性知识从提示词迁移到模型权重中的框架,旨在降低 LLM 智能体的 Token 使用量并提升隐私性。该方法在 ALFWorld 和 WebShop 等基准测试中表现出色,同时显著降低了推理成本。