三思而后行:LLM 智能体的自主探索
摘要
本文指出自主探索是大语言模型智能体的关键能力,并提出了先探索后行动范式,该范式将信息收集与任务执行解耦,以提升适应性和实际性能。同时引入了探索检查点覆盖率作为可验证的指标,用于评估探索的广度。
查看缓存全文
缓存时间: 2026/05/18 02:23
论文页面 - 先观察再行动:面向LLM智能体的自主探索
来源:https://huggingface.co/papers/2605.16143
摘要
采用标准强化学习训练的智能体因过早利用(premature exploitation)而表现出狭窄的行为,但系统性的探索训练能提升其适应性与实际应用表现。
基于大型语言模型的智能体在陌生环境中常常失败,原因在于过早利用:即在获取足够的环境特定信息(https://huggingface.co/papers?q=environment-specific%20information)之前,就倾向于依赖先验知识行事。我们认定自主探索(https://huggingface.co/papers?q=autonomous%20exploration)是构建自适应智能体时一项关键但尚未得到充分研究的能力。为了形式化并量化这一能力,我们引入了探索检查点覆盖率(Exploration Checkpoint Coverage,https://huggingface.co/papers?q=Exploration%20Checkpoint%20Coverage),这是一种可验证的度量指标,用于衡量智能体发现关键状态、物体和可供性的广度。我们的系统性评估表明,采用标准任务导向强化学习(https://huggingface.co/papers?q=reinforcement%20learning)训练的智能体始终表现出狭窄且重复的行为,这阻碍了下游任务的性能。为了解决这一局限,我们开发了一种训练策略,该策略交错执行任务执行轨迹(task-execution rollouts)和探索轨迹(exploration rollouts),每种轨迹由相应的可验证奖励(https://huggingface.co/papers?q=verifiable%20reward)进行优化。基于这一训练策略,我们提出了“先探索后行动”(Explore-then-Act)范式(https://huggingface.co/papers?q=Explore-then-Act%20paradigm),该范式将信息收集与任务执行(https://huggingface.co/papers?q=task%20execution)解耦:智能体首先利用交互预算(interaction budget,https://huggingface.co/papers?q=interaction%20budget)获取基于环境的知识,然后再利用这些知识来完成任务。我们的结果表明,学会系统性地探索对于构建可泛化且能投入实际应用的智能体至关重要。
查看arXiv页面(https://arxiv.org/abs/2605.16143)查看PDF(https://arxiv.org/pdf/2605.16143)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.16143)
将本论文加入你的智能体:
hf papers read 2605.16143
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型0
暂无模型关联本论文
请在使用模型 README.md 中引用 arxiv.org/abs/2605.16143,以便在本页建立链接。
引用该论文的数据集0
暂无数据集关联本论文
请在使用数据集 README.md 中引用 arxiv.org/abs/2605.16143,以便在本页建立链接。
引用该论文的Space0
暂无Space关联本论文
请在使用Space README.md 中引用 arxiv.org/abs/2605.16143,以便在本页建立链接。
包含该论文的收藏集0
暂无收藏集包含本论文
请将本论文添加到一个收藏集(https://huggingface.co/new-collection)中,以便在本页建立链接。
相似文章
学习探索:通过探索感知策略优化扩展代理推理
本文提出一种探索感知的强化学习框架,使LLM代理仅在不确定性高时自适应探索,从而提升在基于文本和基于GUI的基准测试上的性能。
智能体会探索却无视:大语言模型缺乏环境好奇心
学术研究指出,大语言模型智能体常在环境中发现完整解法却几乎从不利用,暴露出对开放性任务至关重要的“环境好奇心”缺失。
MineExplorer:在《我的世界》中评估多模态大语言模型代理的开放世界探索能力
MineExplorer基准测试通过多智能体合成设计的原子任务和多跳任务,评估了多模态大语言模型代理在《我的世界》中的开放世界探索能力。实验表明,开放世界探索仍具挑战性,强模型在长轨迹中性能急剧下降。
学习适应:基于认知感知探索的自我改进网络智能体
提出了SCALE框架,用于自我改进的网络智能体,采用认知感知探索,包含三个对抗角色和图探索策略。同时介绍了从真实网站收集的大规模数据集SCALE-20k,显著提升了基于MLLM的网络智能体的性能。
超越个体智能:基于LLM的多智能体系统中的协作、故障归因与自我进化综述
本综述论文对基于LLM的多智能体系统进行了统一回顾,聚焦于协作、故障归因和自我进化,通过LIFE框架识别开放挑战,并提出跨阶段的研究议程。