三思而后行:LLM 智能体的自主探索
摘要
本文指出自主探索是大语言模型智能体的关键能力,并提出了先探索后行动范式,该范式将信息收集与任务执行解耦,以提升适应性和实际性能。同时引入了探索检查点覆盖率作为可验证的指标,用于评估探索的广度。
查看缓存全文
缓存时间: 2026/05/18 02:23
论文页面 - 先观察再行动:面向LLM智能体的自主探索
来源:https://huggingface.co/papers/2605.16143
摘要
采用标准强化学习训练的智能体因过早利用(premature exploitation)而表现出狭窄的行为,但系统性的探索训练能提升其适应性与实际应用表现。
基于大型语言模型的智能体在陌生环境中常常失败,原因在于过早利用:即在获取足够的环境特定信息(https://huggingface.co/papers?q=environment-specific%20information)之前,就倾向于依赖先验知识行事。我们认定自主探索(https://huggingface.co/papers?q=autonomous%20exploration)是构建自适应智能体时一项关键但尚未得到充分研究的能力。为了形式化并量化这一能力,我们引入了探索检查点覆盖率(Exploration Checkpoint Coverage,https://huggingface.co/papers?q=Exploration%20Checkpoint%20Coverage),这是一种可验证的度量指标,用于衡量智能体发现关键状态、物体和可供性的广度。我们的系统性评估表明,采用标准任务导向强化学习(https://huggingface.co/papers?q=reinforcement%20learning)训练的智能体始终表现出狭窄且重复的行为,这阻碍了下游任务的性能。为了解决这一局限,我们开发了一种训练策略,该策略交错执行任务执行轨迹(task-execution rollouts)和探索轨迹(exploration rollouts),每种轨迹由相应的可验证奖励(https://huggingface.co/papers?q=verifiable%20reward)进行优化。基于这一训练策略,我们提出了“先探索后行动”(Explore-then-Act)范式(https://huggingface.co/papers?q=Explore-then-Act%20paradigm),该范式将信息收集与任务执行(https://huggingface.co/papers?q=task%20execution)解耦:智能体首先利用交互预算(interaction budget,https://huggingface.co/papers?q=interaction%20budget)获取基于环境的知识,然后再利用这些知识来完成任务。我们的结果表明,学会系统性地探索对于构建可泛化且能投入实际应用的智能体至关重要。
查看arXiv页面(https://arxiv.org/abs/2605.16143)查看PDF(https://arxiv.org/pdf/2605.16143)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.16143)
将本论文加入你的智能体:
hf papers read 2605.16143
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型0
暂无模型关联本论文
请在使用模型 README.md 中引用 arxiv.org/abs/2605.16143,以便在本页建立链接。
引用该论文的数据集0
暂无数据集关联本论文
请在使用数据集 README.md 中引用 arxiv.org/abs/2605.16143,以便在本页建立链接。
引用该论文的Space0
暂无Space关联本论文
请在使用Space README.md 中引用 arxiv.org/abs/2605.16143,以便在本页建立链接。
包含该论文的收藏集0
暂无收藏集包含本论文
请将本论文添加到一个收藏集(https://huggingface.co/new-collection)中,以便在本页建立链接。
相似文章
学习探索:通过探索感知策略优化扩展代理推理
本文提出一种探索感知的强化学习框架,使LLM代理仅在不确定性高时自适应探索,从而提升在基于文本和基于GUI的基准测试上的性能。
智能体会探索却无视:大语言模型缺乏环境好奇心
学术研究指出,大语言模型智能体常在环境中发现完整解法却几乎从不利用,暴露出对开放性任务至关重要的“环境好奇心”缺失。
超越个体智能:基于LLM的多智能体系统中的协作、故障归因与自我进化综述
本综述论文对基于LLM的多智能体系统进行了统一回顾,聚焦于协作、故障归因和自我进化,通过LIFE框架识别开放挑战,并提出跨阶段的研究议程。
AutoLLMResearch:通过从低成本学习来优化高成本,训练研究智能体以自动化大型语言模型实验配置
本文介绍了 AutoLLMResearch,这是一个智能体框架,旨在通过在低保真环境中学习并外推至高成本设置,实现昂贵的大型语言模型(LLM)实验配置的自动化。其目标是减少可扩展 LLM 研究中的计算浪费以及对专家直觉的依赖。
通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化
# 论文页面 - 通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化 来源:[https://huggingface.co/papers/2604.18131](https://huggingface.co/papers/2604.18131) ## 摘要 具备内在元进化能力的智能体通过在没有外部监督的情况下自主生成的世界知识,在网页导航任务中展现出更优的性能。如今大多数智能体通过遵循人类定义的奖励和规则来``自我进化''。然而,