EvoArena:追踪记忆演化以实现动态环境中鲁棒的LLM智能体

Hugging Face Daily Papers 论文

摘要

EvoArena引入了一个基准测试,用于评估LLM智能体在动态环境中的表现,该环境在终端、软件和社交领域具有渐进式更新;同时EvoMem提出了一种基于补丁的记忆范式,记录结构化的演化;实验表明,当前智能体在EvoArena上仅达到39.6%的准确率,而EvoMem在该基准测试上平均提升1.5%,并在GAIA和LoCoMo上也有所改进。

大型语言模型(LLM)智能体在众多基准测试上表现出色,但大多数评估假设环境是静态的。相比之下,实际部署的环境本质上是动态的,要求智能体不断调整其知识、技能和行为以适应变化的环境和更新的任务条件。为解决这一问题,我们引入了EvoArena,这是一个基准测试套件,它将环境变化建模为终端、软件和社交领域的渐进式更新序列。我们还提出了EvoMem,一种基于补丁的记忆范式,将记忆演化记录为结构化的更新历史,使智能体能够通过记忆中的变化来推理环境演化。实验表明,当前智能体在EvoArena上表现不佳,在演化的终端、软件和社交偏好领域平均准确率仅为39.6%。EvoMem持续提升性能,在EvoArena上平均提升1.5%,并在GAIA和LoCoMo等标准基准测试上分别提升6.1%和4.8%。除了单个任务,EvoMem在EvoArena上还将链级准确率提升了3.7%,其中成功需要完成一系列连续的演化子任务。机制分析表明,EvoMem改善了记忆中的证据捕获,表明能更完整地保存演化的环境状态。我们的结果凸显了在评估和记忆中对演化进行建模对于可靠智能体部署的重要性。
查看原文
查看缓存全文

缓存时间: 2026/06/12 06:51

论文页面 - EvoArena:追踪记忆演化以实现动态环境中鲁棒的 LLM 智能体

来源:https://huggingface.co/papers/2606.13681 发布于 6 月 11 日

# 当日第 2 篇论文 (https://huggingface.co/papers/date/2026-06-12) 作者:, , , , , , , , , , , ,

摘要

EvoArena 基准测试与 EvoMem 记忆范式通过建模渐进式更新和结构化记忆演化,解决了 LLM 智能体在动态环境中的挑战,展示了在演化任务上的性能提升。

大型语言模型(LLM)智能体在广泛基准测试中取得了强劲性能,但大多数评估都假设环境是静态的。然而,实际部署中的环境本质上是动态的,要求智能体不断调整其知识、技能和行为以适应变化的环境和更新的任务条件。为弥补这一差距,我们引入了 EvoArena(https://huggingface.co/papers?q=EvoArena),一个将环境变化(https://huggingface.co/papers?q=environment%20changes)建模为跨终端、软件和社交领域(https://huggingface.co/papers?q=social%20domain)的渐进式更新(https://huggingface.co/papers?q=progressive%20updates)序列的基准测试套件。我们进一步提出了 EvoMem(https://huggingface.co/papers?q=EvoMem),一种基于补丁的记忆范式,将记忆演化(https://huggingface.co/papers?q=memory%20evolution)记录为结构化的更新历史,使智能体能够通过记忆中的变化来推理环境演化。实验表明,当前智能体在 EvoArena(https://huggingface.co/papers?q=EvoArena)上表现不佳,在演化的终端、软件和社交偏好领域平均准确率仅为 39.6%。EvoMem(https://huggingface.co/papers?q=EvoMem)持续提升性能,在 EvoArena(https://huggingface.co/papers?q=EvoArena)上平均提升 1.5%,并在 GAIA 和 LoCoMo 等标准基准测试上分别提升 6.1% 和 4.8%。除了单个任务,EvoMem(https://huggingface.co/papers?q=EvoMem)还在 EvoArena(https://huggingface.co/papers?q=EvoArena)上将链级准确率(https://huggingface.co/papers?q=chain-level%20accuracy)提升了 3.7%,其中成功需要完成一系列连续的演化子任务。机制分析(https://huggingface.co/papers?q=Mechanistic%20analysis)表明,EvoMem(https://huggingface.co/papers?q=EvoMem)改善了记忆中的证据捕获,表明更好地保存了完整的演化环境状态。我们的结果凸显了在评估和记忆中对演化进行建模对于可靠智能体部署的重要性。

查看 arXiv 页面 (https://arxiv.org/abs/2606.13681)查看 PDF (https://arxiv.org/pdf/2606.13681)添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.13681)

在您的智能体中获取此论文:

hf papers read 2606\.13681

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

暂无模型关联此论文

在模型的 README.md 中引用 arxiv.org/abs/2606.13681 以从此页面链接。

引用此论文的数据集 0

暂无数据集关联此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.13681 以从此页面链接。

引用此论文的 Space 0

暂无 Space 关联此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.13681 以从此页面链接。

包含此论文的合集 1

相似文章

MemEvoBench:LLM 代理内存误演化基准测试

arXiv cs.CL

MemEvoBench 引入了首个用于评估 LLM 代理内存安全性的基准测试,衡量对抗性内存注入、噪声输出和有偏反馈在问答与工作流任务中导致的行为衰退。该研究表明内存演化是安全失败的重要因素,且静态防御措施不足以应对。

MemGym:面向LLM智能体的长时记忆环境

arXiv cs.CL

MemGym是一个基准测试,用于评估LLM智能体在长时任务中的记忆形成,它统一了现有的智能体gym和合成流水线,并采用记忆隔离得分。它涵盖工具使用对话、多轮搜索、编码和计算机使用,并包含一个轻量级奖励模型(MemRM)以实现高效评估。

通过参数化记忆扩展自进化智能体

arXiv cs.AI

来自阿里巴巴/Qwen和北京大学的研究人员提出了TMEM——一种自进化参数化记忆框架。该框架利用在线LoRA权重更新,使LLM智能体能够在单个回合内真正从经验中学习,而非仅依赖提示空间中的记忆。TMEM在多个基准测试(包括LoCoMo、LongMemEval-S和CL-Bench)上均优于基于摘要和基于检索的基线方法。