PACEvolve++:提升进化搜索代理的测试时学习能力

Hugging Face Daily Papers 论文

摘要

本文介绍了 PACEvolve++,这是一种强化学习框架,通过将假设生成与执行解耦,提高了进化搜索代理在测试时的策略适应能力。

大型语言模型已成为驱动进化搜索的关键力量,但大多数系统依赖于固定的、由提示触发的策略来采样下一个候选解。这在评估成本高昂且进展依赖于学习特定任务搜索动态的实际工程和科研任务中,限制了其适应能力。我们引入了 PACEvolve++,这是一种用于进化搜索代理测试时策略适应的顾问模型强化学习框架。PACEvolve++ 将战略搜索决策与实施解耦:一个可训练的顾问模型负责生成、评估和选择假设,而更强大的前沿模型则负责将选定的假设转化为可执行的候选解。为了在非平稳反馈下训练顾问模型,我们提出了一种阶段自适应方法,使其优化策略能够适应进化过程的不同阶段。在进化早期,它使用组相对反馈来学习广泛的搜索偏好;随后,随着奖励差距的缩小,它强调最佳-k(best-of-k)前沿贡献,以支持稳定的微调。在专家并行负载均衡、顺序推荐和蛋白质适应性外推等任务中,PACEvolve++ 优于基于前沿模型的最先进进化搜索框架,实现了更快的收敛速度,并在进化搜索期间稳定了测试时训练。
查看原文
查看缓存全文

缓存时间: 2026/05/12 02:50

论文页面 - PACEvolve++: 改进进化搜索代理的测试时学习

来源: https://huggingface.co/papers/2605.07039 作者:

,

,

,

,

,

,

,

,

,

,

,

,

摘要

PACEvolve++ 通过一个强化学习框架,在进化搜索中实现自适应策略选择,该框架将假设生成与执行解耦,并在不同的进化阶段适应优化策略。

大型语言模型已成为进化搜索(https://huggingface.co/papers?q=evolutionary%20search)的推动力,但大多数系统依赖于固定的、由提示引发的策略来采样下一个候选者。这限制了在实际工程和研究任务中的适应能力,在这些任务中,评估成本高昂,且进展取决于学习任务特定的搜索动态。我们介绍了 PACEvolve++,这是一个用于进化搜索代理中测试时策略适应(https://huggingface.co/papers?q=test-time%20policy%20adaptation)的顾问模型强化学习(https://huggingface.co/papers?q=reinforcement%20learning)框架(https://huggingface.co/papers?q=evolutionary%20search)。PACEvolve++ 将战略搜索决策与实施解耦:一个可训练的顾问生成、评估和选择假设,而一个更强的前沿模型(https://huggingface.co/papers?q=frontier%20model)将选定的假设转化为可执行的候选者。为了在非平稳反馈下训练顾问,我们提出了一种阶段自适应方法(https://huggingface.co/papers?q=phase-adaptive%20approach),该方法根据其策略适应进化过程的不同阶段。在进化早期,它使用组相对反馈(https://huggingface.co/papers?q=group-relative%20feedback)来学习广泛的搜索偏好;随后,随着奖励差距缩小,它强调 top-k(https://huggingface.co/papers?q=best-of-k)前沿贡献,以支持稳定的细化。在专家并行负载均衡、序列推荐和蛋白质适应性外推方面,PACEvolve++ 优于最先进的进化搜索框架(https://huggingface.co/papers?q=evolutionary%20search)结合前沿模型(https://huggingface.co/papers?q=frontier%20model),实现了更快的收敛(https://huggingface.co/papers?q=convergence)并在进化搜索期间稳定了测试时训练(https://huggingface.co/papers?q=evolutionary%20search)。

查看 arXiv 页面(https://arxiv.org/abs/2605.07039)查看 PDF(https://arxiv.org/pdf/2605.07039)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.07039)

在您的代理中获取此论文:

hf papers read 2605\.07039

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.07039 以从此页面链接。

引用此论文的数据集0

无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.07039 以从此页面链接。

引用此论文的 Spaces0

无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.07039 以从此页面链接。

包含此论文的收藏集0

无收藏集包含此论文

将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。

相似文章

EvoTest:面向自我改进智能体系统的进化式测试时学习

arXiv cs.CL

EvoTest 引入了 J-TTL,一个衡量智能体测试时学习能力的基准,并提出了一个进化框架,其中 Actor 智能体玩游戏,而 Evolver 智能体在不进行微调的情况下迭代改进系统的提示、记忆和超参数。该方法在基于复杂文本的游戏中表现出优于基于反思和记忆的基线方法的性能。

EvoMap/evolver

GitHub Trending (daily)

Evolver 是一个由 GEP 驱动的 AI 代理自演化引擎,可自动化提示词优化并创建可审计、可复用的演化资产。该项目正从完全开源过渡到源代码可用,同时保持与现有 MIT 和 GPL-3.0 版本的向后兼容性。

EvoMaster:构建可进化大规模自主科学智能体的基础框架

Hugging Face Daily Papers

# 论文页面 - EvoMaster:构建可进化大规模自主科学智能体的基础框架 来源:[https://huggingface.co/papers/2604.17406](https://huggingface.co/papers/2604.17406) 作者:,,,,,,,,,,,,,,,,,,,,, ## 摘要 EvoMaster 是一个可扩展、自我进化的智能体框架,专为大规模科学发现设计,支持在实验周期中迭代优化假设并持续积累知识。大语言模型与智能体的融合正在催生“智能体科学”新时代。

进化策略梯度

OpenAI Blog

OpenAI 推出进化策略梯度(EPG),这是一种元学习方法,通过进化而非直接学习策略来学习损失函数,使强化学习代理能够通过利用类似人类技能迁移的先验经验,更好地跨任务泛化。