PACEvolve++：提升进化搜索代理的测试时学习能力

Hugging Face Daily Papers 2026/05/07 00:00 论文

摘要

本文介绍了 PACEvolve++，这是一种强化学习框架，通过将假设生成与执行解耦，提高了进化搜索代理在测试时的策略适应能力。

大型语言模型已成为驱动进化搜索的关键力量，但大多数系统依赖于固定的、由提示触发的策略来采样下一个候选解。这在评估成本高昂且进展依赖于学习特定任务搜索动态的实际工程和科研任务中，限制了其适应能力。我们引入了 PACEvolve++，这是一种用于进化搜索代理测试时策略适应的顾问模型强化学习框架。PACEvolve++ 将战略搜索决策与实施解耦：一个可训练的顾问模型负责生成、评估和选择假设，而更强大的前沿模型则负责将选定的假设转化为可执行的候选解。为了在非平稳反馈下训练顾问模型，我们提出了一种阶段自适应方法，使其优化策略能够适应进化过程的不同阶段。在进化早期，它使用组相对反馈来学习广泛的搜索偏好；随后，随着奖励差距的缩小，它强调最佳-k（best-of-k）前沿贡献，以支持稳定的微调。在专家并行负载均衡、顺序推荐和蛋白质适应性外推等任务中，PACEvolve++ 优于基于前沿模型的最先进进化搜索框架，实现了更快的收敛速度，并在进化搜索期间稳定了测试时训练。

查看原文

查看缓存全文

缓存时间: 2026/05/12 02:50

论文页面 - PACEvolve++: 改进进化搜索代理的测试时学习

来源: https://huggingface.co/papers/2605.07039 作者:

摘要

PACEvolve++ 通过一个强化学习框架，在进化搜索中实现自适应策略选择，该框架将假设生成与执行解耦，并在不同的进化阶段适应优化策略。

大型语言模型已成为进化搜索（https://huggingface.co/papers?q=evolutionary%20search）的推动力，但大多数系统依赖于固定的、由提示引发的策略来采样下一个候选者。这限制了在实际工程和研究任务中的适应能力，在这些任务中，评估成本高昂，且进展取决于学习任务特定的搜索动态。我们介绍了 PACEvolve++，这是一个用于进化搜索代理中测试时策略适应（https://huggingface.co/papers?q=test-time%20policy%20adaptation）的顾问模型强化学习（https://huggingface.co/papers?q=reinforcement%20learning）框架（https://huggingface.co/papers?q=evolutionary%20search）。PACEvolve++ 将战略搜索决策与实施解耦：一个可训练的顾问生成、评估和选择假设，而一个更强的前沿模型（https://huggingface.co/papers?q=frontier%20model）将选定的假设转化为可执行的候选者。为了在非平稳反馈下训练顾问，我们提出了一种阶段自适应方法（https://huggingface.co/papers?q=phase-adaptive%20approach），该方法根据其策略适应进化过程的不同阶段。在进化早期，它使用组相对反馈（https://huggingface.co/papers?q=group-relative%20feedback）来学习广泛的搜索偏好；随后，随着奖励差距缩小，它强调 top-k（https://huggingface.co/papers?q=best-of-k）前沿贡献，以支持稳定的细化。在专家并行负载均衡、序列推荐和蛋白质适应性外推方面，PACEvolve++ 优于最先进的进化搜索框架（https://huggingface.co/papers?q=evolutionary%20search）结合前沿模型（https://huggingface.co/papers?q=frontier%20model），实现了更快的收敛（https://huggingface.co/papers?q=convergence）并在进化搜索期间稳定了测试时训练（https://huggingface.co/papers?q=evolutionary%20search）。

查看 arXiv 页面（https://arxiv.org/abs/2605.07039）查看 PDF（https://arxiv.org/pdf/2605.07039）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.07039）

在您的代理中获取此论文：

hf papers read 2605\.07039

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.07039 以从此页面链接。

引用此论文的数据集0

无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.07039 以从此页面链接。

引用此论文的 Spaces0

无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.07039 以从此页面链接。

包含此论文的收藏集0

无收藏集包含此论文

将此论文添加到收藏集（https://huggingface.co/new-collection）以从此页面链接。

PACEvolve++：提升进化搜索代理的测试时学习能力

论文页面 - PACEvolve++: 改进进化搜索代理的测试时学习

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

EVOCHAMBER: 测试时多智能体系统在个体、团队和群体层面的协同进化

EvoTest：面向自我改进智能体系统的进化式测试时学习

EvoMap/evolver

EvoMaster：构建可进化大规模自主科学智能体的基础框架

进化策略梯度

提交意见反馈