EEVEE:面向现实世界中自改进代理的测试时提示学习

Hugging Face Daily Papers 论文

摘要

EEVEE是一种新颖的测试时提示学习框架,专为LLM代理设计,通过任务聚类和共同演化的路由器-提示优化来处理异构数据流,在多个基准测试上实现了显著优于现有方法的改进。

本文提出EEVEE,这是首个用于LLM代理的多数据集测试时提示学习框架,能够在现实世界的任务流中进行测试时提示学习。现有方法主要针对单数据集场景设计,而现实应用要求模型处理来自多个数据集、领域和任务分布的异构输入流,这限制了它们的实际适用性。为减轻跨数据集干扰,EEVEE引入了一个路由器,将输入输入划分为任务聚类,并分配到合适的提示配置。该设计通过路由器-提示共同进化策略进行优化,该策略采用交错的路由器和提示学习阶段来解决它们的相互依赖关系。跨多个数据集的实验表明,该框架在维持单基准学习能力和效率的同时,提高了异构数据流下的鲁棒性。具体而言,EEVEE在Qwen3-4B-Instruct和DeepSeek-V3.2上将平均多基准分数分别提高了10.38和24.32分,超越现有最优方法GEPA和ACE最多37.2%和48.2%。
查看原文
查看缓存全文

缓存时间: 2026/06/10 05:44

论文页面 - EEVEE:面向真实世界自改进智能体的测试时提示学习

来源:https://huggingface.co/papers/2606.11182

摘要

EEVEE 是一种新颖的 LLM 智能体测试时提示学习框架,通过任务聚类和协同进化的路由-提示优化来处理异构数据流。

本文提出 EEVEE,这是首个多数据集(https://huggingface.co/papers?q=multi-dataset)测试时提示学习(https://huggingface.co/papers?q=test-time%20prompt%20learning)框架,面向 LLM 智能体(https://huggingface.co/papers?q=LLM%20agents),能够在真实世界的任务流下进行测试时提示学习(https://huggingface.co/papers?q=test-time%20prompt%20learning)。现有方法主要针对单数据集场景设计,而真实应用需要模型处理来自多个数据集、领域和任务分布的异构输入流,这限制了它们的实际适用性。为缓解跨数据集干扰(https://huggingface.co/papers?q=cross-dataset%20interference),EEVEE 引入了一个路由器(https://huggingface.co/papers?q=router),将输入划分为任务集群(https://huggingface.co/papers?q=task%20clusters)并分配给合适的提示配置(https://huggingface.co/papers?q=prompt%20configurations)。该设计通过路由-提示协同进化(https://huggingface.co/papers?q=router-prompt%20co-evolution)策略进行优化,该策略采用交错的路由器(https://huggingface.co/papers?q=router)和提示学习阶段来解决它们的相互依赖关系。多个数据集上的实验表明,该框架在异构数据流(https://huggingface.co/papers?q=heterogeneous%20data%20streams)下提高了鲁棒性,同时保持了单基准学习能力和效率。具体而言,EEVEE 在 Qwen3-4B-Instruct 和 DeepSeek-V3.2 上的平均多基准分数分别提高了 10.38 和 24.32 分,超过了 SOTA 方法 GEPA 和 ACE,最高分别达到 37.2% 和 48.2%。

查看 arXiv 页面(https://arxiv.org/abs/2606.11182)查看 PDF(https://arxiv.org/pdf/2606.11182)项目页面(https://princeton-ai2-lab.github.io/EEVEE/)GitHub2(https://github.com/Princeton-AI2-Lab/EEVEE)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.11182)

在你的智能体中获取此论文:

hf papers read 2606.11182

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型引用此论文

在模型的 README.md 中引用 arxiv.org/abs/2606.11182 即可从本页链接。

引用此论文的数据集 0

没有数据集引用此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.11182 即可从本页链接。

引用此论文的 Space 0

没有 Space 引用此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.11182 即可从本页链接。

包含此论文的收藏 0

没有收藏包含此论文

将本论文添加到收藏(https://huggingface.co/new-collection)即可从本页链接。

相似文章

EvoTest:面向自我改进智能体系统的进化式测试时学习

arXiv cs.CL

EvoTest 引入了 J-TTL,一个衡量智能体测试时学习能力的基准,并提出了一个进化框架,其中 Actor 智能体玩游戏,而 Evolver 智能体在不进行微调的情况下迭代改进系统的提示、记忆和超参数。该方法在基于复杂文本的游戏中表现出优于基于反思和记忆的基线方法的性能。

EVE-Agent: 可验证证据的自我进化智能体

arXiv cs.AI

EVE-Agent 提出了一个自我进化搜索智能体框架,通过生成问题、答案和证据片段,并基于证据的边际准确性增益进行训练,确保证据可验证性。这提高了基于依据的正确性,且无需人工标注。

通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化

Hugging Face Daily Papers

# 论文页面 - 通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化 来源:[https://huggingface.co/papers/2604.18131](https://huggingface.co/papers/2604.18131) ## 摘要 具备内在元进化能力的智能体通过在没有外部监督的情况下自主生成的世界知识,在网页导航任务中展现出更优的性能。如今大多数智能体通过遵循人类定义的奖励和规则来``自我进化''。然而,