学习探索:通过探索感知策略优化扩展代理推理
摘要
本文提出一种探索感知的强化学习框架,使LLM代理仅在不确定性高时自适应探索,从而提升在基于文本和基于GUI的基准测试上的性能。
查看缓存全文
缓存时间: 2026/05/14 20:20
论文页面 - Learning to Explore: 通过探索感知策略优化扩展智能体推理能力
来源:https://huggingface.co/papers/2605.08978
摘要
智能体利用变分推断评估探索性动作,并仅在不确定性较高时进行选择性探索,从而提升在基于文本和基于GUI的基准测试中的表现。
近年来,智能体测试时扩展的最新进展使得模型在确定最终动作前能够收集环境反馈。现有方法的一个关键局限在于,它们通常采用无差异化的探索策略,缺乏根据实际情况自适应判断何时真正需要探索的能力。在本文中,我们提出了一种探索感知的强化学习框架,使大语言模型智能体能够仅在不确定性较高时进行自适应探索。我们的方法通过变分推断引入了一种细粒度奖励函数,该函数通过估计探索性动作对改善未来决策的潜在价值来显式评估这些动作;同时,我们还引入了一种探索感知的分组机制,在优化过程中将探索性动作与任务完成动作分离。通过针对信息缺口,该设计使智能体能够进行选择性探索,并在任务上下文清晰后立即转为执行阶段。实验表明,我们的方法在一系列具有挑战性的基于文本和基于GUI的智能体基准测试中取得了一致的性能提升。代码可在 https://github.com/HansenHua/EAPO-ICML26 获取,模型可在 https://huggingface.co/hansenhua/EAPO-ICML26 获取。
查看 arXiv 页面 (https://arxiv.org/abs/2605.08978)查看 PDF (https://arxiv.org/pdf/2605.08978)GitHub1 (https://github.com/HansenHua/EAPO-ICML26)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.08978)
社区
在您的智能体中获取此论文:
hf papers read 2605\.08978
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 1 个
hansenhua/EAPO-ICML26 图像-文本-到-文本 • 8B • 更新于 1 天前 • 129 (https://huggingface.co/hansenhua/EAPO-ICML26)
引用此论文的数据集 0 个
没有引用此论文的数据集
请在一个数据集的 README.md 中引用 arxiv.org/abs/2605.08978,以使其从此页面链接。
引用此论文的 Spaces 0 个
没有引用此论文的 Space
请在一个 Space 的 README.md 中引用 arxiv.org/abs/2605.08978,以使其从此页面链接。
包含此论文的收藏集 0 个
没有包含此论文的收藏集
请将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 中以使其从此页面链接。
相似文章
三思而后行:LLM 智能体的自主探索
本文指出自主探索是大语言模型智能体的关键能力,并提出了先探索后行动范式,该范式将信息收集与任务执行解耦,以提升适应性和实际性能。同时引入了探索检查点覆盖率作为可验证的指标,用于评估探索的广度。
从动作引导中学习智能体策略
本文提出了 ActGuide-RL,这是一种利用人类动作数据作为指导来训练大语言模型(LLM)智能体策略的方法,旨在无需大量监督微调的情况下克服强化学习中的探索障碍。
关于通过元强化学习学习探索的一些思考
OpenAI研究人员引入了E-MAML和E-RL²两种元强化学习算法,旨在改进需要大量探索来发现最优策略的任务中的探索性能。该工作展示了这些算法在包括Krazy World和迷宫任务在内的新颖环境中的有效性。
超越舒适区的助推:面向RLVR的高效策略引导探索
NudgeRL是一个框架,通过引入结构化探索和策略助推来增强带有可验证奖励的强化学习(RLVR),相比暴力扩展方法,它能更高效地提升大语言模型的推理性能。
SPS:通过概率挤压引导实现大语言模型强化学习中的更优探索
研究人员提出了 SPS(概率挤压引导),这是一种结合强化学习与逆强化学习的训练范式,旨在解决大语言模型推理训练中的概率挤压问题。该问题表现为概率质量过度集中于高奖励轨迹,导致探索空间受限及多样本性能(Pass@k)下降。在五个推理基准上的实验表明,该方法有效提升了模型的探索能力与 Pass@k 指标。