学习探索:通过探索感知策略优化扩展代理推理
摘要
本文提出一种探索感知的强化学习框架,使LLM代理仅在不确定性高时自适应探索,从而提升在基于文本和基于GUI的基准测试上的性能。
查看缓存全文
缓存时间: 2026/05/14 20:20
论文页面 - Learning to Explore: 通过探索感知策略优化扩展智能体推理能力
来源:https://huggingface.co/papers/2605.08978
摘要
智能体利用变分推断评估探索性动作,并仅在不确定性较高时进行选择性探索,从而提升在基于文本和基于GUI的基准测试中的表现。
近年来,智能体测试时扩展的最新进展使得模型在确定最终动作前能够收集环境反馈。现有方法的一个关键局限在于,它们通常采用无差异化的探索策略,缺乏根据实际情况自适应判断何时真正需要探索的能力。在本文中,我们提出了一种探索感知的强化学习框架,使大语言模型智能体能够仅在不确定性较高时进行自适应探索。我们的方法通过变分推断引入了一种细粒度奖励函数,该函数通过估计探索性动作对改善未来决策的潜在价值来显式评估这些动作;同时,我们还引入了一种探索感知的分组机制,在优化过程中将探索性动作与任务完成动作分离。通过针对信息缺口,该设计使智能体能够进行选择性探索,并在任务上下文清晰后立即转为执行阶段。实验表明,我们的方法在一系列具有挑战性的基于文本和基于GUI的智能体基准测试中取得了一致的性能提升。代码可在 https://github.com/HansenHua/EAPO-ICML26 获取,模型可在 https://huggingface.co/hansenhua/EAPO-ICML26 获取。
查看 arXiv 页面 (https://arxiv.org/abs/2605.08978)查看 PDF (https://arxiv.org/pdf/2605.08978)GitHub1 (https://github.com/HansenHua/EAPO-ICML26)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.08978)
社区
在您的智能体中获取此论文:
hf papers read 2605\.08978
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 1 个
hansenhua/EAPO-ICML26 图像-文本-到-文本 • 8B • 更新于 1 天前 • 129 (https://huggingface.co/hansenhua/EAPO-ICML26)
引用此论文的数据集 0 个
没有引用此论文的数据集
请在一个数据集的 README.md 中引用 arxiv.org/abs/2605.08978,以使其从此页面链接。
引用此论文的 Spaces 0 个
没有引用此论文的 Space
请在一个 Space 的 README.md 中引用 arxiv.org/abs/2605.08978,以使其从此页面链接。
包含此论文的收藏集 0 个
没有包含此论文的收藏集
请将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 中以使其从此页面链接。
相似文章
学习适应:基于认知感知探索的自我改进网络智能体
提出了SCALE框架,用于自我改进的网络智能体,采用认知感知探索,包含三个对抗角色和图探索策略。同时介绍了从真实网站收集的大规模数据集SCALE-20k,显著提升了基于MLLM的网络智能体的性能。
三思而后行:LLM 智能体的自主探索
本文指出自主探索是大语言模型智能体的关键能力,并提出了先探索后行动范式,该范式将信息收集与任务执行解耦,以提升适应性和实际性能。同时引入了探索检查点覆盖率作为可验证的指标,用于评估探索的广度。
从动作引导中学习智能体策略
本文提出了 ActGuide-RL,这是一种利用人类动作数据作为指导来训练大语言模型(LLM)智能体策略的方法,旨在无需大量监督微调的情况下克服强化学习中的探索障碍。
关于通过元强化学习学习探索的一些思考
OpenAI研究人员引入了E-MAML和E-RL²两种元强化学习算法,旨在改进需要大量探索来发现最优策略的任务中的探索性能。该工作展示了这些算法在包括Krazy World和迷宫任务在内的新颖环境中的有效性。
从受训者到训练者:面向多智能体推理的强化学习的LLM设计训练环境
本文提出了LLM-as-Environment-Engineer框架,其中策略模型通过分析失败案例自动重新设计强化学习训练环境,并引入MAPF-FrozenLake作为可控测试平台。该框架使用Qwen3-4B模型,性能优于GPT和Gemini等更大规模模型,表明策略学习提升了模型诊断自身弱点的能力。