PACEvolve++:提升进化搜索代理的测试时学习能力
摘要
本文介绍了 PACEvolve++,这是一种强化学习框架,通过将假设生成与执行解耦,提高了进化搜索代理在测试时的策略适应能力。
查看缓存全文
缓存时间: 2026/05/12 02:50
论文页面 - PACEvolve++: 改进进化搜索代理的测试时学习
来源: https://huggingface.co/papers/2605.07039 作者:
,
,
,
,
,
,
,
,
,
,
,
,
摘要
PACEvolve++ 通过一个强化学习框架,在进化搜索中实现自适应策略选择,该框架将假设生成与执行解耦,并在不同的进化阶段适应优化策略。
大型语言模型已成为进化搜索(https://huggingface.co/papers?q=evolutionary%20search)的推动力,但大多数系统依赖于固定的、由提示引发的策略来采样下一个候选者。这限制了在实际工程和研究任务中的适应能力,在这些任务中,评估成本高昂,且进展取决于学习任务特定的搜索动态。我们介绍了 PACEvolve++,这是一个用于进化搜索代理中测试时策略适应(https://huggingface.co/papers?q=test-time%20policy%20adaptation)的顾问模型强化学习(https://huggingface.co/papers?q=reinforcement%20learning)框架(https://huggingface.co/papers?q=evolutionary%20search)。PACEvolve++ 将战略搜索决策与实施解耦:一个可训练的顾问生成、评估和选择假设,而一个更强的前沿模型(https://huggingface.co/papers?q=frontier%20model)将选定的假设转化为可执行的候选者。为了在非平稳反馈下训练顾问,我们提出了一种阶段自适应方法(https://huggingface.co/papers?q=phase-adaptive%20approach),该方法根据其策略适应进化过程的不同阶段。在进化早期,它使用组相对反馈(https://huggingface.co/papers?q=group-relative%20feedback)来学习广泛的搜索偏好;随后,随着奖励差距缩小,它强调 top-k(https://huggingface.co/papers?q=best-of-k)前沿贡献,以支持稳定的细化。在专家并行负载均衡、序列推荐和蛋白质适应性外推方面,PACEvolve++ 优于最先进的进化搜索框架(https://huggingface.co/papers?q=evolutionary%20search)结合前沿模型(https://huggingface.co/papers?q=frontier%20model),实现了更快的收敛(https://huggingface.co/papers?q=convergence)并在进化搜索期间稳定了测试时训练(https://huggingface.co/papers?q=evolutionary%20search)。
查看 arXiv 页面(https://arxiv.org/abs/2605.07039)查看 PDF(https://arxiv.org/pdf/2605.07039)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.07039)
在您的代理中获取此论文:
hf papers read 2605\.07039
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.07039 以从此页面链接。
引用此论文的数据集0
无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.07039 以从此页面链接。
引用此论文的 Spaces0
无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.07039 以从此页面链接。
包含此论文的收藏集0
无收藏集包含此论文
将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。
相似文章
EVOCHAMBER: 测试时多智能体系统在个体、团队和群体层面的协同进化
EVOCHAMBER是一个无需训练的多智能体测试时进化框架,通过在个体、团队和群体层面的协作反思与非对称知识转移实现涌现式专业化,在数学、编程和推理任务上取得了显著提升。
EvoTest:面向自我改进智能体系统的进化式测试时学习
EvoTest 引入了 J-TTL,一个衡量智能体测试时学习能力的基准,并提出了一个进化框架,其中 Actor 智能体玩游戏,而 Evolver 智能体在不进行微调的情况下迭代改进系统的提示、记忆和超参数。该方法在基于复杂文本的游戏中表现出优于基于反思和记忆的基线方法的性能。
EvoMap/evolver
Evolver 是一个由 GEP 驱动的 AI 代理自演化引擎,可自动化提示词优化并创建可审计、可复用的演化资产。该项目正从完全开源过渡到源代码可用,同时保持与现有 MIT 和 GPL-3.0 版本的向后兼容性。
EvoMaster:构建可进化大规模自主科学智能体的基础框架
# 论文页面 - EvoMaster:构建可进化大规模自主科学智能体的基础框架 来源:[https://huggingface.co/papers/2604.17406](https://huggingface.co/papers/2604.17406) 作者:,,,,,,,,,,,,,,,,,,,,, ## 摘要 EvoMaster 是一个可扩展、自我进化的智能体框架,专为大规模科学发现设计,支持在实验周期中迭代优化假设并持续积累知识。大语言模型与智能体的融合正在催生“智能体科学”新时代。
进化策略梯度
OpenAI 推出进化策略梯度(EPG),这是一种元学习方法,通过进化而非直接学习策略来学习损失函数,使强化学习代理能够通过利用类似人类技能迁移的先验经验,更好地跨任务泛化。