面向智能体与多模态大语言模型的上下文感知强化学习
摘要
介绍了ContextRL,一种强化学习方法,教会大语言模型识别哪些上下文支持答案,在智能体和多模态基准上取得了性能提升。
查看缓存全文
缓存时间: 2026/06/20 14:26
论文页面 - Context-Aware RL for Agentic and Multimodal LLMs
Source: https://huggingface.co/papers/2606.17053 Context-Aware RL for Agentic and Multimodal LLMs
👉 LLMs 经常失败,不是因为答案不可能,而是因为它们错过了隐藏在长文本或图像中的关键线索。
🔥 我们提出 ContextRL:一种强化学习方法,训练模型识别哪些上下文真正支持答案。
✅ 在 5 个智能体基准测试上提高 +2.2% ✅ 在 12 个 VQA 基准测试上提高 +1.8% ✅ 适用于编码智能体和多模态推理 ✅ 相同的对比数据,但目标更优——不是数据增强
🧠 核心理念:不要只奖励最终答案,还要奖励模型将答案建立在正确证据上的行为。
相似文章
面向长周期任务的智能体兼容上下文管理
介绍AdaCoM,一种基于外部LLM的上下文管理器,适用于冻结的智能体。通过保留任务约束和修剪过时内容,利用强化学习提升长周期任务性能,并在网络搜索和深度研究基准上进行了实验。
GoLongRL:面向能力的长上下文强化学习与多任务对齐
GoLongRL 提出了一种开源方法,通过面向能力的数据构建和 TMN-Reweight 方法,实现具有多样化奖励优化的长上下文强化学习。
从历史到状态:面向 LLM 智能体的恒定上下文技能学习
本文介绍了“恒定上下文技能学习”,这是一种将程序性知识从提示词迁移到模型权重中的框架,旨在降低 LLM 智能体的 Token 使用量并提升隐私性。该方法在 ALFWorld 和 WebShop 等基准测试中表现出色,同时显著降低了推理成本。
从受训者到训练者:LLM为多智能体推理强化学习设计的训练环境
本文介绍了LLM-as-Environment-Engineer框架,该框架使LLM能够为多智能体推理任务中的强化学习设计自己的训练环境,实现自我改进训练,其性能超越更大的专有模型。
决策感知记忆卡:面向工具使用LLM代理的反事实启发式上下文选择与压缩
介绍了CICL,一种决策感知上下文层,通过将上下文视为决策时刻的干预,使用反事实启发式评分和类型化记忆卡(受令牌预算限制),为工具使用的LLM代理选择和压缩证据。在SWE-bench和RepoBench上的实验显示,在检索准确性和行动关键性方面取得了实际提升。