三思而后行:LLM 智能体的自主探索

Hugging Face Daily Papers 论文

摘要

本文指出自主探索是大语言模型智能体的关键能力,并提出了先探索后行动范式,该范式将信息收集与任务执行解耦,以提升适应性和实际性能。同时引入了探索检查点覆盖率作为可验证的指标,用于评估探索的广度。

基于大语言模型的智能体常常在陌生环境中失败,原因在于过早利用:即倾向于在获取足够的环境特定信息之前就基于先验知识采取行动。我们将自主探索确定为构建适应性智能体的一项关键但尚未充分探索的能力。为了形式化和量化这种能力,我们引入了探索检查点覆盖率,这是一种可验证的指标,用于衡量智能体发现关键状态、对象和功能属性的广度。我们的系统评估表明,采用标准任务导向强化学习训练的智能体一致表现出狭窄和重复的行为,从而阻碍了下游性能。为了解决这一局限,我们开发了一种训练策略,将任务执行展开和探索展开交替进行,每种展开通过相应的可验证奖励进行优化。基于这一训练策略,我们提出了先探索后行动范式,该范式将信息收集与任务执行解耦:智能体首先利用交互预算获取有根据的环境知识,然后利用这些知识解决任务。我们的结果表明,学习系统性地探索对于构建可泛化且适用于实际环境的智能体至关重要。
查看原文
查看缓存全文

缓存时间: 2026/05/18 02:23

论文页面 - 先观察再行动:面向LLM智能体的自主探索

来源:https://huggingface.co/papers/2605.16143

摘要

采用标准强化学习训练的智能体因过早利用(premature exploitation)而表现出狭窄的行为,但系统性的探索训练能提升其适应性与实际应用表现。

基于大型语言模型的智能体在陌生环境中常常失败,原因在于过早利用:即在获取足够的环境特定信息(https://huggingface.co/papers?q=environment-specific%20information)之前,就倾向于依赖先验知识行事。我们认定自主探索(https://huggingface.co/papers?q=autonomous%20exploration)是构建自适应智能体时一项关键但尚未得到充分研究的能力。为了形式化并量化这一能力,我们引入了探索检查点覆盖率(Exploration Checkpoint Coverage,https://huggingface.co/papers?q=Exploration%20Checkpoint%20Coverage),这是一种可验证的度量指标,用于衡量智能体发现关键状态、物体和可供性的广度。我们的系统性评估表明,采用标准任务导向强化学习(https://huggingface.co/papers?q=reinforcement%20learning)训练的智能体始终表现出狭窄且重复的行为,这阻碍了下游任务的性能。为了解决这一局限,我们开发了一种训练策略,该策略交错执行任务执行轨迹(task-execution rollouts)和探索轨迹(exploration rollouts),每种轨迹由相应的可验证奖励(https://huggingface.co/papers?q=verifiable%20reward)进行优化。基于这一训练策略,我们提出了“先探索后行动”(Explore-then-Act)范式(https://huggingface.co/papers?q=Explore-then-Act%20paradigm),该范式将信息收集与任务执行(https://huggingface.co/papers?q=task%20execution)解耦:智能体首先利用交互预算(interaction budget,https://huggingface.co/papers?q=interaction%20budget)获取基于环境的知识,然后再利用这些知识来完成任务。我们的结果表明,学会系统性地探索对于构建可泛化且能投入实际应用的智能体至关重要。

查看arXiv页面(https://arxiv.org/abs/2605.16143)查看PDF(https://arxiv.org/pdf/2605.16143)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.16143)

将本论文加入你的智能体:

hf papers read 2605.16143

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型0

暂无模型关联本论文

请在使用模型 README.md 中引用 arxiv.org/abs/2605.16143,以便在本页建立链接。

引用该论文的数据集0

暂无数据集关联本论文

请在使用数据集 README.md 中引用 arxiv.org/abs/2605.16143,以便在本页建立链接。

引用该论文的Space0

暂无Space关联本论文

请在使用Space README.md 中引用 arxiv.org/abs/2605.16143,以便在本页建立链接。

包含该论文的收藏集0

暂无收藏集包含本论文

请将本论文添加到一个收藏集(https://huggingface.co/new-collection)中,以便在本页建立链接。

相似文章

通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化

Hugging Face Daily Papers

# 论文页面 - 通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化 来源:[https://huggingface.co/papers/2604.18131](https://huggingface.co/papers/2604.18131) ## 摘要 具备内在元进化能力的智能体通过在没有外部监督的情况下自主生成的世界知识,在网页导航任务中展现出更优的性能。如今大多数智能体通过遵循人类定义的奖励和规则来``自我进化''。然而,