通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化
摘要
# 论文页面 - 通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化 来源:[https://huggingface.co/papers/2604.18131](https://huggingface.co/papers/2604.18131) ## 摘要 具备内在元进化能力的智能体通过在没有外部监督的情况下自主生成的世界知识,在网页导航任务中展现出更优的性能。如今大多数智能体通过遵循人类定义的奖励和规则来``自我进化''。然而,
查看缓存全文
缓存时间: 2026/04/21 07:20
论文页面 - 通过世界知识探索训练 LLM 智能体实现自发、无奖励的自我进化
来源:https://huggingface.co/papers/2604.18131
摘要
具备内在元进化能力的智能体,通过自我生成的世界知识,在无外部监督的情况下提升了网页导航任务的表现。
如今大多数智能体通过遵循人类定义的奖励和规则来“自我进化”。然而,这一过程本质上仍依赖于外部监督;没有人类指导,进化就会停止。
在本研究中,我们训练智能体具备内在的元进化(https://huggingface.co/papers?q=meta-evolution)能力,使其能够在执行任务前自发地学习未知环境。为了培养这一能力,我们设计了一种基于结果的奖励机制(https://huggingface.co/papers?q=outcome-based%20reward%20mechanism),用于衡量智能体自我生成的世界知识(https://huggingface.co/papers?q=world%20knowledge)对其在下游任务(https://huggingface.co/papers?q=downstream%20tasks)上成功率的提升程度。该奖励信号仅在训练阶段使用,用于教导模型如何有效地探索和总结。在推理阶段,智能体无需任何外部奖励或
相似文章
CoEvolve:通过智能体-数据互进化训练LLM智能体
CoEvolve提出了一个智能体-数据互进化框架,通过闭环、交互驱动的学习来训练LLM智能体,同时适配智能体和其训练数据分布。该方法从轨迹回滚中提取反馈信号以指导基于LLM的任务合成,在AppWorld和BFCL基准上的多个Qwen模型中展示了显著的改进(绝对收益15-19%)。
OpenSkill:LLM智能体的开放世界自进化
OpenSkill是一个框架,让LLM智能体能够从开放世界资源中自进化技能和验证信号,无需目标任务监督,在多个基准测试中实现高性能。
EvolveMem: 通过AutoResearch实现LLM智能体的自演化记忆架构
EvolveMem为LLM智能体引入了一种自演化记忆架构,通过LLM驱动的诊断和迭代研究周期来优化检索配置,在LoCoMo和MemBench等基准测试上取得了显著的性能提升。
MetaEvo: 一种用于经验驱动型智能体持续进化的元优化框架
MetaEvo 提出了一种两阶段框架,用于基于LLM的智能体的持续进化,利用基于偏好的优化来增强原则抽象和用于经验重用的模块化架构,在推理基准测试上优于强基线。
重新思考自进化大语言模型智能体的持续经验内化
本文研究了大语言模型智能体在多轮迭代经验内化过程中出现能力渐进式崩溃的原因,并提出了一套从经验粒度、注入模式和训练机制三个维度出发的鲁棒解决方案。主要发现包括:原则级经验、逐步注入方式以及离策略上下文蒸馏能够带来更稳定、更可持续的持续学习效果。