面向多模态代理的任务聚焦记忆

Hugging Face Daily Papers 论文

摘要

介绍了TaskMem,一种基于强化学习的多模态代理动态记忆框架,在流式视频基准测试上实现了6.3%、7.0%和5.3%的准确率提升。

长期记忆对于多模态代理建立连贯的体验、积累世界知识并实现持续学习至关重要。然而,构建有效的记忆不仅涉及记忆模块设计和准确性、保真度等基本要求;关键挑战在于确定要记忆什么。多模态代理(例如具身代理)持续感知、推理并在真实或虚拟环境中行动,接收无限的多模态观察流。面对这种信息组合爆炸,代理必须选择性地保留与其在环境中的角色相关且对未来任务有价值的内容。为弥补这一差距,我们将记忆生成形式化为可学习的记忆策略,并引入TaskMem(任务聚焦记忆策略学习),这是一种基于强化学习的框架,使策略能够根据环境中遇到的真实任务需求动态调整注意力。TaskMem采用两阶段训练范式:第一阶段在基本保真度要求下优化记忆质量,学习如何记忆;第二阶段发生在部署后,代理通过在其基础MLLM上微调配适器,利用近期环境任务定义奖励模型,引导记忆策略关注任务相关的内容,从而学习要记忆什么。为评估我们的方法,我们将VideoMME、EgoLife和EgoTempo重新整理为流式基准测试,模拟代理处理流式观察并在线处理任务的真实场景。为隔离记忆评估,问题必须仅通过代理的记忆来回答,无法访问原始视频。基于Qwen3-VL-30B-A3B构建的TaskMem在这些基准测试上将VQA准确率分别提升了6.3%、7.0%和5.3%。
查看原文
查看缓存全文

缓存时间: 2026/06/01 03:17

论文页面 - 面向多模态智能体的任务聚焦记忆

来源: https://huggingface.co/papers/2605.31075

摘要

本文提出了一种名为 TaskMem 的基于强化学习的框架,能够动态决定多模态智能体应在长期记忆中存储哪些信息,从而在流式视频基准测试中提升性能。

长期记忆(https://huggingface.co/papers?q=Long-term%20memory)对于多模态智能体(https://huggingface.co/papers?q=multimodal%20agents)构建连贯的体验、积累世界知识以及实现持续学习(https://huggingface.co/papers?q=continual%20learning)至关重要。然而,构建有效的记忆不仅涉及记忆模块的设计以及准确性、保真度等基本需求;关键挑战在于决定“记住什么”。多模态智能体(https://huggingface.co/papers?q=Multimodal%20agents)(例如具身智能体)持续地感知、推理并在真实或虚拟环境中行动,接收源源不断的多模态观测信息。面对这种信息组合爆炸,智能体必须选择性地保留与其环境角色相关且对未来任务有价值的内容。为弥补这一差距,我们将记忆生成视为一种可学习的记忆策略(https://huggingface.co/papers?q=memorization%20policy),并引入了 TaskMem(任务聚焦记忆策略学习),这是一个基于强化学习的框架,使策略能够动态调整关注点以适应环境中遇到的实际任务需求。TaskMem 采用两阶段训练(https://huggingface.co/papers?q=two-phase%20training)范式:第一阶段学习如何记忆,在基本保真度要求下优化记忆质量(https://huggingface.co/papers?q=memory%20quality);第二阶段在部署后进行,智能体通过在其基础 MLLM 上微调适配器来学习记忆什么,利用最近的环境任务定义奖励模型(https://huggingface.co/papers?q=reward%20model),引导记忆策略(https://huggingface.co/papers?q=memorization%20policy)朝向与任务相关的内容。为评估我们的方法,我们将 VideoMME(https://huggingface.co/papers?q=VideoMME)、EgoLife(https://huggingface.co/papers?q=EgoLife)和 EgoTempo(https://huggingface.co/papers?q=EgoTempo)重新构建为流式基准测试(https://huggingface.co/papers?q=streaming%20benchmarks),模拟了智能体处理流式观测并处理在线到来任务的现实场景。为隔离记忆评估,问题必须仅使用智能体的记忆来回答,而不访问原始视频。基于 Qwen3-VL-30B-A3B(https://huggingface.co/papers?q=Qwen3-VL-30B-A3B),TaskMem 在这些基准测试上的 VQA 准确率(https://huggingface.co/papers?q=VQA%20accuracy)分别提升了 6.3%、7.0% 和 5.3%。

查看 arXiv 页面(https://arxiv.org/abs/2605.31075)查看 PDF(https://arxiv.org/pdf/2605.31075)项目页面(https://taskmem.github.io/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.31075)

在你的智能体中获取这篇论文:

hf papers read 2605\.31075

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型0

没有模型关联该论文

在模型 README.md 中引用 arxiv.org/abs/2605.31075 以在此页面链接它。

引用该论文的数据集0

没有数据集关联该论文

在数据集 README.md 中引用 arxiv.org/abs/2605.31075 以在此页面链接它。

引用该论文的 Space0

没有 Space 关联该论文

在 Space README.md 中引用 arxiv.org/abs/2605.31075 以在此页面链接它。

包含该论文的收藏集0

没有收藏集包含该论文

将这篇论文添加到一个收藏集(https://huggingface.co/new-collection)以在此页面链接它。

相似文章

你的 Openclaw 使用什么记忆?

Reddit r/openclaw

一位开发者讨论了使用 Engram 为 Hermes 代理构建自定义记忆插件,该插件将新信息与现有记忆进行协调,以避免过时和重复,并向 OpenClaw 社区询问他们记忆使用的情况。

这个人形机器人是一名能力惊人的办公室实习生

Wired

Flexion Robotics,一家由前Nvidia研究人员创立的瑞士初创公司,开发了一种AI系统,通过结合仿真、强化学习和视频观察,训练人形机器人执行复杂的办公室任务,实现自主操作,例如取包裹和使用电梯。

@rohanpaul_ai: 来自剑桥大学、英伟达及其他顶尖实验室的新论文教会AI智能体和AI评判者共同改进,使任何一方都不会……

X AI KOLs Following

来自剑桥大学、英伟达及其他实验室的一篇新论文介绍了Red Queen Gödel机器,这是一种让AI智能体及其评估者共同进化以防止停滞的方法。该方法通过允许评判者在安全交接点改进来避免固定基准,从而在编程和论文写作任务中取得更好的性能。