通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化

Hugging Face Daily Papers 论文

摘要

# 论文页面 - 通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化 来源:[https://huggingface.co/papers/2604.18131](https://huggingface.co/papers/2604.18131) ## 摘要 具备内在元进化能力的智能体通过在没有外部监督的情况下自主生成的世界知识,在网页导航任务中展现出更优的性能。如今大多数智能体通过遵循人类定义的奖励和规则来``自我进化''。然而,

如今大多数智能体通过遵循人类定义的奖励和规则来``自我进化''。然而,这一过程从根本上仍然依赖外部监督;一旦没有人类指导,进化就会停止。在本研究中,我们训练智能体具备一种内在的元进化能力,使其能够在执行任务前自发地学习未知环境。 为了培养这种能力,我们设计了一种基于结果的奖励机制,用于衡量智能体自主生成的世界知识在多大程度上提升了其在下游任务中的成功率。该奖励信号仅在训练阶段使用,以教导模型如何有效地探索和总结。在推理阶段,智能体无需任何外部奖励或人类指令。它通过内部参数自发地进行原生自我进化,以适应未知环境。 在Qwen3-30B和Seed-OSS-36B上的应用表明,这种向原生进化的转变使模型在WebVoyager和WebWalker上的性能提升了20%。最令人瞩目的是,所生成的世界知识甚至使一个轻量级的14B Qwen3模型超越了未经辅助的Gemini-2.5-Flash,为真正具备进化能力的智能体开创了一种新范式。
查看原文
查看缓存全文

缓存时间: 2026/04/21 07:20

论文页面 - 通过世界知识探索训练 LLM 智能体实现自发、无奖励的自我进化

来源:https://huggingface.co/papers/2604.18131

摘要

具备内在元进化能力的智能体,通过自我生成的世界知识,在无外部监督的情况下提升了网页导航任务的表现。

如今大多数智能体通过遵循人类定义的奖励和规则来“自我进化”。然而,这一过程本质上仍依赖于外部监督;没有人类指导,进化就会停止。

在本研究中,我们训练智能体具备内在的元进化(https://huggingface.co/papers?q=meta-evolution)能力,使其能够在执行任务前自发地学习未知环境。为了培养这一能力,我们设计了一种基于结果的奖励机制(https://huggingface.co/papers?q=outcome-based%20reward%20mechanism),用于衡量智能体自我生成的世界知识(https://huggingface.co/papers?q=world%20knowledge)对其在下游任务(https://huggingface.co/papers?q=downstream%20tasks)上成功率的提升程度。该奖励信号仅在训练阶段使用,用于教导模型如何有效地探索和总结。在推理阶段,智能体无需任何外部奖励或

相似文章

CoEvolve:通过智能体-数据互进化训练LLM智能体

arXiv cs.CL

CoEvolve提出了一个智能体-数据互进化框架,通过闭环、交互驱动的学习来训练LLM智能体,同时适配智能体和其训练数据分布。该方法从轨迹回滚中提取反馈信号以指导基于LLM的任务合成,在AppWorld和BFCL基准上的多个Qwen模型中展示了显著的改进(绝对收益15-19%)。

OpenSkill:LLM智能体的开放世界自进化

Hugging Face Daily Papers

OpenSkill是一个框架,让LLM智能体能够从开放世界资源中自进化技能和验证信号,无需目标任务监督,在多个基准测试中实现高性能。

重新思考自进化大语言模型智能体的持续经验内化

arXiv cs.CL

本文研究了大语言模型智能体在多轮迭代经验内化过程中出现能力渐进式崩溃的原因,并提出了一套从经验粒度、注入模式和训练机制三个维度出发的鲁棒解决方案。主要发现包括:原则级经验、逐步注入方式以及离策略上下文蒸馏能够带来更稳定、更可持续的持续学习效果。