EEVEE:面向现实世界中自改进代理的测试时提示学习
摘要
EEVEE是一种新颖的测试时提示学习框架,专为LLM代理设计,通过任务聚类和共同演化的路由器-提示优化来处理异构数据流,在多个基准测试上实现了显著优于现有方法的改进。
查看缓存全文
缓存时间: 2026/06/10 05:44
论文页面 - EEVEE:面向真实世界自改进智能体的测试时提示学习
来源:https://huggingface.co/papers/2606.11182
摘要
EEVEE 是一种新颖的 LLM 智能体测试时提示学习框架,通过任务聚类和协同进化的路由-提示优化来处理异构数据流。
本文提出 EEVEE,这是首个多数据集(https://huggingface.co/papers?q=multi-dataset)测试时提示学习(https://huggingface.co/papers?q=test-time%20prompt%20learning)框架,面向 LLM 智能体(https://huggingface.co/papers?q=LLM%20agents),能够在真实世界的任务流下进行测试时提示学习(https://huggingface.co/papers?q=test-time%20prompt%20learning)。现有方法主要针对单数据集场景设计,而真实应用需要模型处理来自多个数据集、领域和任务分布的异构输入流,这限制了它们的实际适用性。为缓解跨数据集干扰(https://huggingface.co/papers?q=cross-dataset%20interference),EEVEE 引入了一个路由器(https://huggingface.co/papers?q=router),将输入划分为任务集群(https://huggingface.co/papers?q=task%20clusters)并分配给合适的提示配置(https://huggingface.co/papers?q=prompt%20configurations)。该设计通过路由-提示协同进化(https://huggingface.co/papers?q=router-prompt%20co-evolution)策略进行优化,该策略采用交错的路由器(https://huggingface.co/papers?q=router)和提示学习阶段来解决它们的相互依赖关系。多个数据集上的实验表明,该框架在异构数据流(https://huggingface.co/papers?q=heterogeneous%20data%20streams)下提高了鲁棒性,同时保持了单基准学习能力和效率。具体而言,EEVEE 在 Qwen3-4B-Instruct 和 DeepSeek-V3.2 上的平均多基准分数分别提高了 10.38 和 24.32 分,超过了 SOTA 方法 GEPA 和 ACE,最高分别达到 37.2% 和 48.2%。
查看 arXiv 页面(https://arxiv.org/abs/2606.11182)查看 PDF(https://arxiv.org/pdf/2606.11182)项目页面(https://princeton-ai2-lab.github.io/EEVEE/)GitHub2(https://github.com/Princeton-AI2-Lab/EEVEE)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.11182)
在你的智能体中获取此论文:
hf papers read 2606.11182
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有模型引用此论文
在模型的 README.md 中引用 arxiv.org/abs/2606.11182 即可从本页链接。
引用此论文的数据集 0
没有数据集引用此论文
在数据集的 README.md 中引用 arxiv.org/abs/2606.11182 即可从本页链接。
引用此论文的 Space 0
没有 Space 引用此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2606.11182 即可从本页链接。
包含此论文的收藏 0
没有收藏包含此论文
将本论文添加到收藏(https://huggingface.co/new-collection)即可从本页链接。
相似文章
EvoTest:面向自我改进智能体系统的进化式测试时学习
EvoTest 引入了 J-TTL,一个衡量智能体测试时学习能力的基准,并提出了一个进化框架,其中 Actor 智能体玩游戏,而 Evolver 智能体在不进行微调的情况下迭代改进系统的提示、记忆和超参数。该方法在基于复杂文本的游戏中表现出优于基于反思和记忆的基线方法的性能。
EVE-Agent: 可验证证据的自我进化智能体
EVE-Agent 提出了一个自我进化搜索智能体框架,通过生成问题、答案和证据片段,并基于证据的边际准确性增益进行训练,确保证据可验证性。这提高了基于依据的正确性,且无需人工标注。
PACEvolve++:提升进化搜索代理的测试时学习能力
本文介绍了 PACEvolve++,这是一种强化学习框架,通过将假设生成与执行解耦,提高了进化搜索代理在测试时的策略适应能力。
通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化
# 论文页面 - 通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化 来源:[https://huggingface.co/papers/2604.18131](https://huggingface.co/papers/2604.18131) ## 摘要 具备内在元进化能力的智能体通过在没有外部监督的情况下自主生成的世界知识,在网页导航任务中展现出更优的性能。如今大多数智能体通过遵循人类定义的奖励和规则来``自我进化''。然而,
MetaEvo: 一种用于经验驱动型智能体持续进化的元优化框架
MetaEvo 提出了一种两阶段框架,用于基于LLM的智能体的持续进化,利用基于偏好的优化来增强原则抽象和用于经验重用的模块化架构,在推理基准测试上优于强基线。