EvoArena：追踪记忆演化以实现动态环境中鲁棒的LLM智能体

Hugging Face Daily Papers 2026/06/11 00:00 论文

llm-agents memory-evolution dynamic-environments benchmark evaluation llm agents

摘要

EvoArena引入了一个基准测试，用于评估LLM智能体在动态环境中的表现，该环境在终端、软件和社交领域具有渐进式更新；同时EvoMem提出了一种基于补丁的记忆范式，记录结构化的演化；实验表明，当前智能体在EvoArena上仅达到39.6%的准确率，而EvoMem在该基准测试上平均提升1.5%，并在GAIA和LoCoMo上也有所改进。

大型语言模型（LLM）智能体在众多基准测试上表现出色，但大多数评估假设环境是静态的。相比之下，实际部署的环境本质上是动态的，要求智能体不断调整其知识、技能和行为以适应变化的环境和更新的任务条件。为解决这一问题，我们引入了EvoArena，这是一个基准测试套件，它将环境变化建模为终端、软件和社交领域的渐进式更新序列。我们还提出了EvoMem，一种基于补丁的记忆范式，将记忆演化记录为结构化的更新历史，使智能体能够通过记忆中的变化来推理环境演化。实验表明，当前智能体在EvoArena上表现不佳，在演化的终端、软件和社交偏好领域平均准确率仅为39.6%。EvoMem持续提升性能，在EvoArena上平均提升1.5%，并在GAIA和LoCoMo等标准基准测试上分别提升6.1%和4.8%。除了单个任务，EvoMem在EvoArena上还将链级准确率提升了3.7%，其中成功需要完成一系列连续的演化子任务。机制分析表明，EvoMem改善了记忆中的证据捕获，表明能更完整地保存演化的环境状态。我们的结果凸显了在评估和记忆中对演化进行建模对于可靠智能体部署的重要性。

查看原文

查看缓存全文

缓存时间: 2026/06/12 06:51

论文页面 - EvoArena：追踪记忆演化以实现动态环境中鲁棒的 LLM 智能体

来源：https://huggingface.co/papers/2606.13681 发布于 6 月 11 日

# 当日第 2 篇论文 (https://huggingface.co/papers/date/2026-06-12) 作者：, , , , , , , , , , , ,

摘要

EvoArena 基准测试与 EvoMem 记忆范式通过建模渐进式更新和结构化记忆演化，解决了 LLM 智能体在动态环境中的挑战，展示了在演化任务上的性能提升。

大型语言模型（LLM）智能体在广泛基准测试中取得了强劲性能，但大多数评估都假设环境是静态的。然而，实际部署中的环境本质上是动态的，要求智能体不断调整其知识、技能和行为以适应变化的环境和更新的任务条件。为弥补这一差距，我们引入了 EvoArena（https://huggingface.co/papers?q=EvoArena），一个将环境变化（https://huggingface.co/papers?q=environment%20changes）建模为跨终端、软件和社交领域（https://huggingface.co/papers?q=social%20domain）的渐进式更新（https://huggingface.co/papers?q=progressive%20updates）序列的基准测试套件。我们进一步提出了 EvoMem（https://huggingface.co/papers?q=EvoMem），一种基于补丁的记忆范式，将记忆演化（https://huggingface.co/papers?q=memory%20evolution）记录为结构化的更新历史，使智能体能够通过记忆中的变化来推理环境演化。实验表明，当前智能体在 EvoArena（https://huggingface.co/papers?q=EvoArena）上表现不佳，在演化的终端、软件和社交偏好领域平均准确率仅为 39.6%。EvoMem（https://huggingface.co/papers?q=EvoMem）持续提升性能，在 EvoArena（https://huggingface.co/papers?q=EvoArena）上平均提升 1.5%，并在 GAIA 和 LoCoMo 等标准基准测试上分别提升 6.1% 和 4.8%。除了单个任务，EvoMem（https://huggingface.co/papers?q=EvoMem）还在 EvoArena（https://huggingface.co/papers?q=EvoArena）上将链级准确率（https://huggingface.co/papers?q=chain-level%20accuracy）提升了 3.7%，其中成功需要完成一系列连续的演化子任务。机制分析（https://huggingface.co/papers?q=Mechanistic%20analysis）表明，EvoMem（https://huggingface.co/papers?q=EvoMem）改善了记忆中的证据捕获，表明更好地保存了完整的演化环境状态。我们的结果凸显了在评估和记忆中对演化进行建模对于可靠智能体部署的重要性。

查看 arXiv 页面 (https://arxiv.org/abs/2606.13681)查看 PDF (https://arxiv.org/pdf/2606.13681)添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.13681)

在您的智能体中获取此论文：

hf papers read 2606\.13681

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

暂无模型关联此论文

在模型的 README.md 中引用 arxiv.org/abs/2606.13681 以从此页面链接。

引用此论文的数据集 0

暂无数据集关联此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.13681 以从此页面链接。

引用此论文的 Space 0

暂无 Space 关联此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.13681 以从此页面链接。

EvoArena：追踪记忆演化以实现动态环境中鲁棒的LLM智能体

论文页面 - EvoArena：追踪记忆演化以实现动态环境中鲁棒的 LLM 智能体

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Space 0

包含此论文的合集 1

相似文章

MemEvoBench：LLM 代理内存误演化基准测试

EvolveMem: 通过AutoResearch实现LLM智能体的自演化记忆架构

MemGym：面向LLM智能体的长时记忆环境

@hyunji_amy_lee: LLM代理与记忆系统在持续更新的环境中运行（Git仓库、不断演变的文档）。它们必须处理…

通过参数化记忆扩展自进化智能体

提交意见反馈