@MaxForAI: 昨天字节Seed开源了一个非常有意思的checkpoint TaskMem 它基于Qwen3-VL-30B-A3B训练，目标不是直接回答问题，而是让多模态Agent在视频/环境流里学会生成更有用的长期记忆。重点是让Agent学会在连续视…

X AI KOLs Timeline 2026/06/03 05:19 模型

multimodal-agent long-term-memory video-understanding open-source bytedance rl-training streaming-task

摘要

字节Seed开源了TaskMem checkpoint，基于Qwen3-VL-30B-A3B训练，通过两阶段强化学习让多模态Agent在视频流中学会生成长期记忆，在VideoMME、EgoLife等基准上获得显著提升。

昨天字节Seed开源了一个非常有意思的checkpoint TaskMem 它基于Qwen3-VL-30B-A3B训练，目标不是直接回答问题，而是让多模态Agent在视频/环境流里学会生成更有用的长期记忆。重点是让Agent学会在连续视频/环境流里判断「什么值得被记住」，而不是把记忆当成简单摘要、RAG库或者剪贴板。对应的论文叫《Task-Focused Memorization for Multimodal Agents》，作者是Tao Zou、Yichen He、Tian Qiu、Yuan Lin、Hang Li，来自ByteDance Seed和复旦。论文里的核心方法是两阶段训练。第一阶段学「怎么记」。用RL训练记忆生成策略，让它生成准确、不重复、格式稳定、信息量足够的episodic memory。论文里用GSPO做训练，奖励包括format、thinking length、quality、richness。这里有个细节很有意思：他们专门加了richness reward，因为只优化质量会被模型钻空子，生成很短但看起来没错的记忆。模型嘛，一旦发现考试漏洞，作弊速度比大学生还快。第二阶段学「该记什么」。部署后，根据最近环境里出现的任务/问题，训练一个很轻的adapter，让模型把记忆焦点转向未来更可能用到的信息。论文里说这个adapter只有2048个可训练参数，主模型冻结，用DPO优化；它更像一个「任务方向的记忆偏置向量」。实验设计很有意思，他们把VideoMME、EgoLife、EgoTempo改造成streaming任务。 Agent先看视频流并生成记忆，问题后出现，回答时不能再看原视频，只能看生成出来的记忆。这个设定比普通视频问答更接近真实Agent，因为真实环境里你也不能每次都把录像倒回去重看，虽然我很想这么干。结果上，TaskMem在三个benchmark上的准确率是VideoMME67.9、EgoLife45.4、EgoTempo27.6。相比基础Qwen3-VL-30B-A3B的61.6、38.4、22.3，提升分别是6.3、7.0、5.3个百分点。它在VideoMME和EgoLife上超过了表里的GPT-5.2；在EgoTempo上准确率低于GPT-5.2，但precision更高。这个方向对personal AI、embodied agent、截图记忆、视频理解都很有启发。比如用户截图很多，难点不只是搜出来，而是系统能不能提前知道哪些截图、哪些细节、哪些上下文以后会有用。链接：https://huggingface.co/ByteDance-Seed/TaskMem/tree/main…

查看原文

查看缓存全文

缓存时间: 2026/06/03 09:47

昨天字节Seed开源了一个非常有意思的checkpoint

TaskMem

它基于Qwen3-VL-30B-A3B训练，目标不是直接回答问题，而是让多模态Agent在视频/环境流里学会生成更有用的长期记忆。

重点是让Agent学会在连续视频/环境流里判断「什么值得被记住」，而不是把记忆当成简单摘要、RAG库或者剪贴板。

对应的论文叫《Task-Focused Memorization for Multimodal Agents》，作者是Tao Zou、Yichen He、Tian Qiu、Yuan Lin、Hang Li，来自ByteDance Seed和复旦。

论文里的核心方法是两阶段训练。

第一阶段学「怎么记」。

用RL训练记忆生成策略，让它生成准确、不重复、格式稳定、信息量足够的episodic memory。

论文里用GSPO做训练，奖励包括format、thinking length、quality、richness。

这里有个细节很有意思：他们专门加了richness reward，因为只优化质量会被模型钻空子，生成很短但看起来没错的记忆。模型嘛，一旦发现考试漏洞，作弊速度比大学生还快。

第二阶段学「该记什么」。

部署后，根据最近环境里出现的任务/问题，训练一个很轻的adapter，让模型把记忆焦点转向未来更可能用到的信息。

论文里说这个adapter只有2048个可训练参数，主模型冻结，用DPO优化；它更像一个「任务方向的记忆偏置向量」。

实验设计很有意思，他们把VideoMME、EgoLife、EgoTempo改造成streaming任务。

Agent先看视频流并生成记忆，问题后出现，回答时不能再看原视频，只能看生成出来的记忆。

这个设定比普通视频问答更接近真实Agent，因为真实环境里你也不能每次都把录像倒回去重看，虽然我很想这么干。

结果上，TaskMem在三个benchmark上的准确率是VideoMME67.9、EgoLife45.4、EgoTempo27.6。

相比基础Qwen3-VL-30B-A3B的61.6、38.4、22.3，提升分别是6.3、7.0、5.3个百分点。

它在VideoMME和EgoLife上超过了表里的GPT-5.2；在EgoTempo上准确率低于GPT-5.2，但precision更高。

这个方向对personal AI、embodied agent、截图记忆、视频理解都很有启发。

比如用户截图很多，难点不只是搜出来，而是系统能不能提前知道哪些截图、哪些细节、哪些上下文以后会有用。

链接：https://huggingface.co/ByteDance-Seed/TaskMem/tree/main…

ByteDance-Seed/TaskMem at main

Source: https://huggingface.co/ByteDance-Seed/TaskMem/tree/main hyc2026’s picture

hyc2026

Upload folder using huggingface_hub

b2b4dff

verified

1 day ago

相似文章

@berryxia: 兄弟们，MemOS 2.0 开源项目又更新了！ Github 已经斩获9.3K Star ~ 这次直接把“AI记忆”从高级剪贴板升级成了真·执行即学习。以前很多记忆方案，就是把聊天记录存下来，加个语义检索，看起来有记忆，实际上还是RAG…

X AI KOLs Timeline

MemOS 2.0开源项目更新，引入“执行即学习”机制，让AI Agent在完成任务时自动拆解、提炼经验，从原始轨迹到肌肉记忆分层进化，实现越用越懂用户的专属助手。

@WY_mask: 给各类 AI 编程助手打造持久化记忆引擎 http://github.com/rohitg00/agentmemory… 在后台静默记录代码修改和上下文自动提取并压缩成结构化记忆节省长上下文带来的 Token 消耗关联过去的信息，随…

X AI KOLs Timeline

agentmemory 是一个为 AI 编程助手提供持久化记忆的开源工具，能静默记录代码修改和上下文，自动提取并压缩成结构化记忆，降低 Token 消耗，并支持 Claude Code、Codex 等多种主流平台。

@berryxia: Agent 记忆真是太特么卷了啊！不得不说，这个赛道越多人加入越爽啊！ Tencent AI团队花了整整6个月，就死磕一个问题：AI agent长会话里疯狂丢上下文。他们最后把一套记忆系统做完，直接开源了。我看完他们的分享，最大的感…

X AI KOLs Timeline

腾讯AI团队开源了Agent记忆系统，通过实时上下文压缩、Mermaid任务地图和Persona记忆三种方法，显著提升长对话中的token效率和agent一致性，token消耗降低61%，人格一致性从48%提升至76%。

@servasyy_ai: https://x.com/servasyy_ai/status/2057463627255570937

X AI KOLs Timeline

腾讯云数据库团队开源了 TencentDB Agent Memory，一个解决 AI Agent 长任务上下文退化问题的运行时系统，通过三层回溯与动态压缩机制将短期上下文压缩纳入记忆系统，并整合了长期记忆流水线，是 AI Agent 记忆系统从“数据库”走向“运行时”的标志性尝试。

@wsl8297: 用 AI Agent 跑复杂任务，最难受的往往不是模型不够强，而是对话一变长，上下文就开始爆仓。你还得一遍遍补背景、重讲流程，再加上工具调用吐出来的冗余日志，Token 像开了口子一样往外流。最近看到腾讯开源的 TencentDB A…

X AI KOLs Timeline

腾讯开源了 TencentDB Agent Memory，通过分层记忆管理（符号化短期记忆+分层长期记忆）解决AI Agent长对话上下文爆仓问题，实测Token消耗最高降低61%，任务通过率提升超50%。

ByteDance-Seed/TaskMem at main

相似文章

@berryxia: 兄弟们，MemOS 2.0 开源项目又更新了！ Github 已经斩获9.3K Star ~ 这次直接把“AI记忆”从高级剪贴板升级成了真·执行即学习。 以前很多记忆方案，就是把聊天记录存下来，加个语义检索，看起来有记忆，实际上还是RAG…

@WY_mask: 给各类 AI 编程助手打造持久化记忆引擎 http://github.com/rohitg00/agentmemory… 在后台静默记录代码修改和上下文 自动提取并压缩成结构化记忆 节省长上下文带来的 Token 消耗 关联过去的信息，随…

@servasyy_ai: https://x.com/servasyy_ai/status/2057463627255570937

提交意见反馈

@berryxia: 兄弟们，MemOS 2.0 开源项目又更新了！ Github 已经斩获9.3K Star ~ 这次直接把“AI记忆”从高级剪贴板升级成了真·执行即学习。以前很多记忆方案，就是把聊天记录存下来，加个语义检索，看起来有记忆，实际上还是RAG…

@WY_mask: 给各类 AI 编程助手打造持久化记忆引擎 http://github.com/rohitg00/agentmemory… 在后台静默记录代码修改和上下文自动提取并压缩成结构化记忆节省长上下文带来的 Token 消耗关联过去的信息，随…