基于新奇信号的联合代理记忆与探索学习

Hugging Face Daily Papers 论文

摘要

本文介绍了JAMEL框架,该框架利用新奇信号联合训练代理记忆与探索策略,从而在开放环境中实现高效探索,并降低计算成本。

在开放环境中,探索是自主智能体的基本能力,但当前的语言模型智能体在此方面存在困难。有效的探索需要记忆,但在长时间交互轨迹中保留原始交互历史会产生巨大的计算开销。隐式记忆虽能压缩交互历史,但缺乏可靠的监督信号进行训练。我们提出联合代理记忆与探索学习(JAMEL)框架,通过新奇驱动的交互共同训练代理记忆与探索策略。我们观察到记忆与探索形成了相互依赖的循环:持续探索需要记忆区分已探索与未尝试的行为,而寻求新奇的交互则为记忆模块提供使其对未来探索有用的监督信号。通过利用确定且持久的新奇信号(如图形用户界面领域的代码覆盖率),我们为记忆模块提供了天然且无需标注的监督。实验评估表明,该框架能成功泛化至未见环境,其探索能力优于开放权重基线,并与闭源模型的探索深度相匹敌,同时显著降低令牌消耗。我们的代码和模型已在 https://github.com/MobileLLM/JAMEL 开源。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:37

论文页面 - 基于新颖性信号的联合智能体记忆与探索学习

来源:https://huggingface.co/papers/2606.01528

摘要

联合智能体记忆与探索学习(JAMEL)框架通过新颖性驱动的交互共同训练记忆和探索策略,从而在降低计算成本的同时,实现在开放环境中的高效探索。

在开放环境(https://huggingface.co/papers?q=open-ended%20environments)中,探索是自主智能体的基础,但目前的语言模型智能体在此方面存在困难。有效的探索需要记忆,但保留原始交互历史在长轨迹任务中计算成本过高。虽然隐式记忆(https://huggingface.co/papers?q=latent%20memory)提供了压缩交互历史的解决方案,但其训练缺乏可靠的监督信号。我们引入了联合智能体记忆(https://huggingface.co/papers?q=Agent%20Memory)与探索学习(JAMEL),这是一个通过新颖性驱动的交互(https://huggingface.co/papers?q=novelty-driven%20interaction)共同训练智能体记忆和探索策略(https://huggingface.co/papers?q=exploration%20policy)的框架。我们观察到记忆和探索形成了一个相互依赖的循环:持续的探索需要记忆来区分已穷举的行为与未见过的新行为,而寻求新颖性的交互则为记忆提供了使其对未来探索有用的监督信号。通过利用GUI领域中确定且持久的新颖性信号(https://huggingface.co/papers?q=persistent%20novelty%20signals),例如代码覆盖率(https://huggingface.co/papers?q=code%20coverage),我们为记忆模块提供了自然、无需标注的监督。实验评估表明,我们的方法成功泛化到未见环境中。其探索能力优于开放权重基线,并在减少令牌消耗(https://huggingface.co/papers?q=token%20consumption)的同时,达到了与闭源模型(https://huggingface.co/papers?q=closed-source%20model)相媲美的探索深度。我们的代码和模型已在 https://github.com/MobileLLM/JAMEL 开源。

查看 arXiv 页面 (https://arxiv.org/abs/2606.01528)查看 PDF (https://arxiv.org/pdf/2606.01528)项目页面 (https://github.com/MobileLLM/JAMEL)GitHub3 (https://github.com/MobileLLM/JAMEL)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.01528)

在你的智能体中获取这篇论文:

hf papers read 2606.01528

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2606.01528 即可从本页链接。

引用该论文的数据集 0

暂无数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.01528 即可从本页链接。

引用该论文的 Space 0

暂无 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.01528 即可从本页链接。

包含该论文的收藏集 0

暂无包含此论文的收藏集

将这篇论文添加到收藏集 (https://huggingface.co/new-collection) 即可从本页链接。

相似文章

AEM:用于多轮智能体强化学习的自适应熵调制

Hugging Face Daily Papers

本文介绍了AEM,这是一种用于智能体强化学习的无监督方法,通过在响应级别自适应调整熵动态来改善探索与利用之间的平衡。通过在ALFWorld和SWE-bench等基准测试上展示性能提升,该方法将不确定性估计与动作粒度对齐。

关于通过元强化学习学习探索的一些思考

OpenAI Blog

OpenAI研究人员引入了E-MAML和E-RL²两种元强化学习算法,旨在改进需要大量探索来发现最优策略的任务中的探索性能。该工作展示了这些算法在包括Krazy World和迷宫任务在内的新颖环境中的有效性。

三思而后行:LLM 智能体的自主探索

Hugging Face Daily Papers

本文指出自主探索是大语言模型智能体的关键能力,并提出了先探索后行动范式,该范式将信息收集与任务执行解耦,以提升适应性和实际性能。同时引入了探索检查点覆盖率作为可验证的指标,用于评估探索的广度。

从多模态经验中学会学习

arXiv cs.AI

本文介绍了AutoMMemo,一个使多模态智能体能够自动设计记忆机制(可表达为可执行的备忘录程序)以从多模态交互轨迹中学习的框架,在GUI/Web导航和视觉推理基准上优于无记忆和固定记忆基线。