基于新奇信号的联合代理记忆与探索学习

Hugging Face Daily Papers 2026/06/01 00:00 论文

agent-memory exploration novelty-driven open-ended-environments latent-memory code-coverage

摘要

本文介绍了JAMEL框架，该框架利用新奇信号联合训练代理记忆与探索策略，从而在开放环境中实现高效探索，并降低计算成本。

在开放环境中，探索是自主智能体的基本能力，但当前的语言模型智能体在此方面存在困难。有效的探索需要记忆，但在长时间交互轨迹中保留原始交互历史会产生巨大的计算开销。隐式记忆虽能压缩交互历史，但缺乏可靠的监督信号进行训练。我们提出联合代理记忆与探索学习（JAMEL）框架，通过新奇驱动的交互共同训练代理记忆与探索策略。我们观察到记忆与探索形成了相互依赖的循环：持续探索需要记忆区分已探索与未尝试的行为，而寻求新奇的交互则为记忆模块提供使其对未来探索有用的监督信号。通过利用确定且持久的新奇信号（如图形用户界面领域的代码覆盖率），我们为记忆模块提供了天然且无需标注的监督。实验评估表明，该框架能成功泛化至未见环境，其探索能力优于开放权重基线，并与闭源模型的探索深度相匹敌，同时显著降低令牌消耗。我们的代码和模型已在 https://github.com/MobileLLM/JAMEL 开源。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:37

论文页面 - 基于新颖性信号的联合智能体记忆与探索学习

来源：https://huggingface.co/papers/2606.01528

摘要

联合智能体记忆与探索学习（JAMEL）框架通过新颖性驱动的交互共同训练记忆和探索策略，从而在降低计算成本的同时，实现在开放环境中的高效探索。

在开放环境（https://huggingface.co/papers?q=open-ended%20environments）中，探索是自主智能体的基础，但目前的语言模型智能体在此方面存在困难。有效的探索需要记忆，但保留原始交互历史在长轨迹任务中计算成本过高。虽然隐式记忆（https://huggingface.co/papers?q=latent%20memory）提供了压缩交互历史的解决方案，但其训练缺乏可靠的监督信号。我们引入了联合智能体记忆（https://huggingface.co/papers?q=Agent%20Memory）与探索学习（JAMEL），这是一个通过新颖性驱动的交互（https://huggingface.co/papers?q=novelty-driven%20interaction）共同训练智能体记忆和探索策略（https://huggingface.co/papers?q=exploration%20policy）的框架。我们观察到记忆和探索形成了一个相互依赖的循环：持续的探索需要记忆来区分已穷举的行为与未见过的新行为，而寻求新颖性的交互则为记忆提供了使其对未来探索有用的监督信号。通过利用GUI领域中确定且持久的新颖性信号（https://huggingface.co/papers?q=persistent%20novelty%20signals），例如代码覆盖率（https://huggingface.co/papers?q=code%20coverage），我们为记忆模块提供了自然、无需标注的监督。实验评估表明，我们的方法成功泛化到未见环境中。其探索能力优于开放权重基线，并在减少令牌消耗（https://huggingface.co/papers?q=token%20consumption）的同时，达到了与闭源模型（https://huggingface.co/papers?q=closed-source%20model）相媲美的探索深度。我们的代码和模型已在 https://github.com/MobileLLM/JAMEL 开源。

查看 arXiv 页面 (https://arxiv.org/abs/2606.01528)查看 PDF (https://arxiv.org/pdf/2606.01528)项目页面 (https://github.com/MobileLLM/JAMEL)GitHub3 (https://github.com/MobileLLM/JAMEL)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.01528)

在你的智能体中获取这篇论文：

hf papers read 2606.01528

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2606.01528 即可从本页链接。

引用该论文的数据集 0

暂无数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.01528 即可从本页链接。

引用该论文的 Space 0

暂无 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.01528 即可从本页链接。

包含该论文的收藏集 0

暂无包含此论文的收藏集

将这篇论文添加到收藏集 (https://huggingface.co/new-collection) 即可从本页链接。

基于新奇信号的联合代理记忆与探索学习

论文页面 - 基于新颖性信号的联合智能体记忆与探索学习

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Space 0

包含该论文的收藏集 0

相似文章

学习探索：通过探索感知策略优化扩展代理推理

AEM：用于多轮智能体强化学习的自适应熵调制

关于通过元强化学习学习探索的一些思考

三思而后行：LLM 智能体的自主探索

从多模态经验中学会学习

提交意见反馈