面向多模态代理的任务聚焦记忆
摘要
介绍了TaskMem,一种基于强化学习的多模态代理动态记忆框架,在流式视频基准测试上实现了6.3%、7.0%和5.3%的准确率提升。
查看缓存全文
缓存时间: 2026/06/01 03:17
论文页面 - 面向多模态智能体的任务聚焦记忆
来源: https://huggingface.co/papers/2605.31075
摘要
本文提出了一种名为 TaskMem 的基于强化学习的框架,能够动态决定多模态智能体应在长期记忆中存储哪些信息,从而在流式视频基准测试中提升性能。
长期记忆(https://huggingface.co/papers?q=Long-term%20memory)对于多模态智能体(https://huggingface.co/papers?q=multimodal%20agents)构建连贯的体验、积累世界知识以及实现持续学习(https://huggingface.co/papers?q=continual%20learning)至关重要。然而,构建有效的记忆不仅涉及记忆模块的设计以及准确性、保真度等基本需求;关键挑战在于决定“记住什么”。多模态智能体(https://huggingface.co/papers?q=Multimodal%20agents)(例如具身智能体)持续地感知、推理并在真实或虚拟环境中行动,接收源源不断的多模态观测信息。面对这种信息组合爆炸,智能体必须选择性地保留与其环境角色相关且对未来任务有价值的内容。为弥补这一差距,我们将记忆生成视为一种可学习的记忆策略(https://huggingface.co/papers?q=memorization%20policy),并引入了 TaskMem(任务聚焦记忆策略学习),这是一个基于强化学习的框架,使策略能够动态调整关注点以适应环境中遇到的实际任务需求。TaskMem 采用两阶段训练(https://huggingface.co/papers?q=two-phase%20training)范式:第一阶段学习如何记忆,在基本保真度要求下优化记忆质量(https://huggingface.co/papers?q=memory%20quality);第二阶段在部署后进行,智能体通过在其基础 MLLM 上微调适配器来学习记忆什么,利用最近的环境任务定义奖励模型(https://huggingface.co/papers?q=reward%20model),引导记忆策略(https://huggingface.co/papers?q=memorization%20policy)朝向与任务相关的内容。为评估我们的方法,我们将 VideoMME(https://huggingface.co/papers?q=VideoMME)、EgoLife(https://huggingface.co/papers?q=EgoLife)和 EgoTempo(https://huggingface.co/papers?q=EgoTempo)重新构建为流式基准测试(https://huggingface.co/papers?q=streaming%20benchmarks),模拟了智能体处理流式观测并处理在线到来任务的现实场景。为隔离记忆评估,问题必须仅使用智能体的记忆来回答,而不访问原始视频。基于 Qwen3-VL-30B-A3B(https://huggingface.co/papers?q=Qwen3-VL-30B-A3B),TaskMem 在这些基准测试上的 VQA 准确率(https://huggingface.co/papers?q=VQA%20accuracy)分别提升了 6.3%、7.0% 和 5.3%。
查看 arXiv 页面(https://arxiv.org/abs/2605.31075)查看 PDF(https://arxiv.org/pdf/2605.31075)项目页面(https://taskmem.github.io/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.31075)
在你的智能体中获取这篇论文:
hf papers read 2605\.31075
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用该论文的模型0
没有模型关联该论文
在模型 README.md 中引用 arxiv.org/abs/2605.31075 以在此页面链接它。
引用该论文的数据集0
没有数据集关联该论文
在数据集 README.md 中引用 arxiv.org/abs/2605.31075 以在此页面链接它。
引用该论文的 Space0
没有 Space 关联该论文
在 Space README.md 中引用 arxiv.org/abs/2605.31075 以在此页面链接它。
包含该论文的收藏集0
没有收藏集包含该论文
将这篇论文添加到一个收藏集(https://huggingface.co/new-collection)以在此页面链接它。
相似文章
Ornith-1.0:用于智能体编程的自我改进开源模型
Ornith-1.0 是一系列用于智能体编程的开源自我改进模型,通过联合优化脚手架和解决方案展开的强化学习,在编程基准测试中实现了最先进的性能。
你的 Openclaw 使用什么记忆?
一位开发者讨论了使用 Engram 为 Hermes 代理构建自定义记忆插件,该插件将新信息与现有记忆进行协调,以避免过时和重复,并向 OpenClaw 社区询问他们记忆使用的情况。
@itarutomy: 一篇从头重建AI Agent研究"知识基础设施"的论文 (https://arxiv[.]org/html…
本文介绍了Agents-K1,一个基于246万篇论文构建的知识图谱系统,通过整合文本、图形、表格和方程式,以及五级引用分类,提升了AI Agent研究。它显著提高了Gemini-3和GPT-5.2等顶级模型在基准测试中的表现,表明优化知识结构比扩大模型规模更有效。
这个人形机器人是一名能力惊人的办公室实习生
Flexion Robotics,一家由前Nvidia研究人员创立的瑞士初创公司,开发了一种AI系统,通过结合仿真、强化学习和视频观察,训练人形机器人执行复杂的办公室任务,实现自主操作,例如取包裹和使用电梯。
@rohanpaul_ai: 来自剑桥大学、英伟达及其他顶尖实验室的新论文教会AI智能体和AI评判者共同改进,使任何一方都不会……
来自剑桥大学、英伟达及其他实验室的一篇新论文介绍了Red Queen Gödel机器,这是一种让AI智能体及其评估者共同进化以防止停滞的方法。该方法通过允许评判者在安全交接点改进来避免固定基准,从而在编程和论文写作任务中取得更好的性能。