EEVEE：面向现实世界中自改进代理的测试时提示学习

Hugging Face Daily Papers 2026/06/09 17:57 论文

摘要

EEVEE是一种新颖的测试时提示学习框架，专为LLM代理设计，通过任务聚类和共同演化的路由器-提示优化来处理异构数据流，在多个基准测试上实现了显著优于现有方法的改进。

本文提出EEVEE，这是首个用于LLM代理的多数据集测试时提示学习框架，能够在现实世界的任务流中进行测试时提示学习。现有方法主要针对单数据集场景设计，而现实应用要求模型处理来自多个数据集、领域和任务分布的异构输入流，这限制了它们的实际适用性。为减轻跨数据集干扰，EEVEE引入了一个路由器，将输入输入划分为任务聚类，并分配到合适的提示配置。该设计通过路由器-提示共同进化策略进行优化，该策略采用交错的路由器和提示学习阶段来解决它们的相互依赖关系。跨多个数据集的实验表明，该框架在维持单基准学习能力和效率的同时，提高了异构数据流下的鲁棒性。具体而言，EEVEE在Qwen3-4B-Instruct和DeepSeek-V3.2上将平均多基准分数分别提高了10.38和24.32分，超越现有最优方法GEPA和ACE最多37.2%和48.2%。

查看原文

查看缓存全文

缓存时间: 2026/06/10 05:44

论文页面 - EEVEE：面向真实世界自改进智能体的测试时提示学习

来源：https://huggingface.co/papers/2606.11182

摘要

EEVEE 是一种新颖的 LLM 智能体测试时提示学习框架，通过任务聚类和协同进化的路由-提示优化来处理异构数据流。

本文提出 EEVEE，这是首个多数据集（https://huggingface.co/papers?q=multi-dataset）测试时提示学习（https://huggingface.co/papers?q=test-time%20prompt%20learning）框架，面向 LLM 智能体（https://huggingface.co/papers?q=LLM%20agents），能够在真实世界的任务流下进行测试时提示学习（https://huggingface.co/papers?q=test-time%20prompt%20learning）。现有方法主要针对单数据集场景设计，而真实应用需要模型处理来自多个数据集、领域和任务分布的异构输入流，这限制了它们的实际适用性。为缓解跨数据集干扰（https://huggingface.co/papers?q=cross-dataset%20interference），EEVEE 引入了一个路由器（https://huggingface.co/papers?q=router），将输入划分为任务集群（https://huggingface.co/papers?q=task%20clusters）并分配给合适的提示配置（https://huggingface.co/papers?q=prompt%20configurations）。该设计通过路由-提示协同进化（https://huggingface.co/papers?q=router-prompt%20co-evolution）策略进行优化，该策略采用交错的路由器（https://huggingface.co/papers?q=router）和提示学习阶段来解决它们的相互依赖关系。多个数据集上的实验表明，该框架在异构数据流（https://huggingface.co/papers?q=heterogeneous%20data%20streams）下提高了鲁棒性，同时保持了单基准学习能力和效率。具体而言，EEVEE 在 Qwen3-4B-Instruct 和 DeepSeek-V3.2 上的平均多基准分数分别提高了 10.38 和 24.32 分，超过了 SOTA 方法 GEPA 和 ACE，最高分别达到 37.2% 和 48.2%。

查看 arXiv 页面（https://arxiv.org/abs/2606.11182）查看 PDF（https://arxiv.org/pdf/2606.11182）项目页面（https://princeton-ai2-lab.github.io/EEVEE/）GitHub2（https://github.com/Princeton-AI2-Lab/EEVEE）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.11182）

在你的智能体中获取此论文：

hf papers read 2606.11182

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型引用此论文

在模型的 README.md 中引用 arxiv.org/abs/2606.11182 即可从本页链接。

引用此论文的数据集 0

没有数据集引用此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.11182 即可从本页链接。

引用此论文的 Space 0

没有 Space 引用此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.11182 即可从本页链接。

包含此论文的收藏 0

没有收藏包含此论文

将本论文添加到收藏（https://huggingface.co/new-collection）即可从本页链接。

EEVEE：面向现实世界中自改进代理的测试时提示学习

论文页面 - EEVEE：面向真实世界自改进智能体的测试时提示学习

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Space 0

包含此论文的收藏 0

相似文章

EvoTest：面向自我改进智能体系统的进化式测试时学习

EVE-Agent: 可验证证据的自我进化智能体

PACEvolve++：提升进化搜索代理的测试时学习能力

通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化

MetaEvo: 一种用于经验驱动型智能体持续进化的元优化框架

提交意见反馈