通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化

Hugging Face Daily Papers 2026/04/20 00:00 论文

摘要

# 论文页面 - 通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化来源：[https://huggingface.co/papers/2604.18131](https://huggingface.co/papers/2604.18131) ## 摘要具备内在元进化能力的智能体通过在没有外部监督的情况下自主生成的世界知识，在网页导航任务中展现出更优的性能。如今大多数智能体通过遵循人类定义的奖励和规则来``自我进化''。然而，

如今大多数智能体通过遵循人类定义的奖励和规则来``自我进化''。然而，这一过程从根本上仍然依赖外部监督；一旦没有人类指导，进化就会停止。在本研究中，我们训练智能体具备一种内在的元进化能力，使其能够在执行任务前自发地学习未知环境。为了培养这种能力，我们设计了一种基于结果的奖励机制，用于衡量智能体自主生成的世界知识在多大程度上提升了其在下游任务中的成功率。该奖励信号仅在训练阶段使用，以教导模型如何有效地探索和总结。在推理阶段，智能体无需任何外部奖励或人类指令。它通过内部参数自发地进行原生自我进化，以适应未知环境。在Qwen3-30B和Seed-OSS-36B上的应用表明，这种向原生进化的转变使模型在WebVoyager和WebWalker上的性能提升了20%。最令人瞩目的是，所生成的世界知识甚至使一个轻量级的14B Qwen3模型超越了未经辅助的Gemini-2.5-Flash，为真正具备进化能力的智能体开创了一种新范式。

查看原文

查看缓存全文

缓存时间: 2026/04/21 07:20

论文页面 - 通过世界知识探索训练 LLM 智能体实现自发、无奖励的自我进化

来源：https://huggingface.co/papers/2604.18131

摘要

具备内在元进化能力的智能体，通过自我生成的世界知识，在无外部监督的情况下提升了网页导航任务的表现。

如今大多数智能体通过遵循人类定义的奖励和规则来“自我进化”。然而，这一过程本质上仍依赖于外部监督；没有人类指导，进化就会停止。

在本研究中，我们训练智能体具备内在的元进化（https://huggingface.co/papers?q=meta-evolution）能力，使其能够在执行任务前自发地学习未知环境。为了培养这一能力，我们设计了一种基于结果的奖励机制（https://huggingface.co/papers?q=outcome-based%20reward%20mechanism），用于衡量智能体自我生成的世界知识（https://huggingface.co/papers?q=world%20knowledge）对其在下游任务（https://huggingface.co/papers?q=downstream%20tasks）上成功率的提升程度。该奖励信号仅在训练阶段使用，用于教导模型如何有效地探索和总结。在推理阶段，智能体无需任何外部奖励或

通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化

论文页面 - 通过世界知识探索训练 LLM 智能体实现自发、无奖励的自我进化

摘要

相似文章

CoEvolve：通过智能体-数据互进化训练LLM智能体

OpenSkill：LLM智能体的开放世界自进化

EvolveMem: 通过AutoResearch实现LLM智能体的自演化记忆架构

MetaEvo: 一种用于经验驱动型智能体持续进化的元优化框架

重新思考自进化大语言模型智能体的持续经验内化

提交意见反馈