@MaxForAI: 昨天字节Seed开源了一个非常有意思的checkpoint TaskMem 它基于Qwen3-VL-30B-A3B训练,目标不是直接回答问题,而是让多模态Agent在视频/环境流里学会生成更有用的长期记忆。 重点是让Agent学会在连续视…
摘要
字节Seed开源了TaskMem checkpoint,基于Qwen3-VL-30B-A3B训练,通过两阶段强化学习让多模态Agent在视频流中学会生成长期记忆,在VideoMME、EgoLife等基准上获得显著提升。
查看缓存全文
缓存时间: 2026/06/03 09:47
昨天字节Seed开源了一个非常有意思的checkpoint
TaskMem
它基于Qwen3-VL-30B-A3B训练,目标不是直接回答问题,而是让多模态Agent在视频/环境流里学会生成更有用的长期记忆。
重点是让Agent学会在连续视频/环境流里判断「什么值得被记住」,而不是把记忆当成简单摘要、RAG库或者剪贴板。
对应的论文叫《Task-Focused Memorization for Multimodal Agents》,作者是Tao Zou、Yichen He、Tian Qiu、Yuan Lin、Hang Li,来自ByteDance Seed和复旦。
论文里的核心方法是两阶段训练。
第一阶段学「怎么记」。
用RL训练记忆生成策略,让它生成准确、不重复、格式稳定、信息量足够的episodic memory。
论文里用GSPO做训练,奖励包括format、thinking length、quality、richness。
这里有个细节很有意思:他们专门加了richness reward,因为只优化质量会被模型钻空子,生成很短但看起来没错的记忆。 模型嘛,一旦发现考试漏洞,作弊速度比大学生还快。
第二阶段学「该记什么」。
部署后,根据最近环境里出现的任务/问题,训练一个很轻的adapter,让模型把记忆焦点转向未来更可能用到的信息。
论文里说这个adapter只有2048个可训练参数,主模型冻结,用DPO优化;它更像一个「任务方向的记忆偏置向量」。
实验设计很有意思,他们把VideoMME、EgoLife、EgoTempo改造成streaming任务。
Agent先看视频流并生成记忆,问题后出现,回答时不能再看原视频,只能看生成出来的记忆。
这个设定比普通视频问答更接近真实Agent,因为真实环境里你也不能每次都把录像倒回去重看,虽然我很想这么干。
结果上,TaskMem在三个benchmark上的准确率是VideoMME67.9、EgoLife45.4、EgoTempo27.6。
相比基础Qwen3-VL-30B-A3B的61.6、38.4、22.3,提升分别是6.3、7.0、5.3个百分点。
它在VideoMME和EgoLife上超过了表里的GPT-5.2;在EgoTempo上准确率低于GPT-5.2,但precision更高。
这个方向对personal AI、embodied agent、截图记忆、视频理解都很有启发。
比如用户截图很多,难点不只是搜出来,而是系统能不能提前知道哪些截图、哪些细节、哪些上下文以后会有用。
链接:https://huggingface.co/ByteDance-Seed/TaskMem/tree/main…
ByteDance-Seed/TaskMem at main
Source: https://huggingface.co/ByteDance-Seed/TaskMem/tree/main
![]()
Upload folder using huggingface_hub
verified
1 day ago
相似文章
@berryxia: 兄弟们,MemOS 2.0 开源项目又更新了! Github 已经斩获9.3K Star ~ 这次直接把“AI记忆”从高级剪贴板升级成了真·执行即学习。 以前很多记忆方案,就是把聊天记录存下来,加个语义检索,看起来有记忆,实际上还是RAG…
MemOS 2.0开源项目更新,引入“执行即学习”机制,让AI Agent在完成任务时自动拆解、提炼经验,从原始轨迹到肌肉记忆分层进化,实现越用越懂用户的专属助手。
@WY_mask: 给各类 AI 编程助手打造持久化记忆引擎 http://github.com/rohitg00/agentmemory… 在后台静默记录代码修改和上下文 自动提取并压缩成结构化记忆 节省长上下文带来的 Token 消耗 关联过去的信息,随…
agentmemory 是一个为 AI 编程助手提供持久化记忆的开源工具,能静默记录代码修改和上下文,自动提取并压缩成结构化记忆,降低 Token 消耗,并支持 Claude Code、Codex 等多种主流平台。
@berryxia: Agent 记忆真是太特么卷了啊! 不得不说,这个赛道越多人加入越爽啊! Tencent AI团队花了整整6个月,就死磕一个问题:AI agent长会话里疯狂丢上下文。 他们最后把一套记忆系统做完,直接开源了。 我看完他们的分享,最大的感…
腾讯AI团队开源了Agent记忆系统,通过实时上下文压缩、Mermaid任务地图和Persona记忆三种方法,显著提升长对话中的token效率和agent一致性,token消耗降低61%,人格一致性从48%提升至76%。
@servasyy_ai: https://x.com/servasyy_ai/status/2057463627255570937
腾讯云数据库团队开源了 TencentDB Agent Memory,一个解决 AI Agent 长任务上下文退化问题的运行时系统,通过三层回溯与动态压缩机制将短期上下文压缩纳入记忆系统,并整合了长期记忆流水线,是 AI Agent 记忆系统从“数据库”走向“运行时”的标志性尝试。
@wsl8297: 用 AI Agent 跑复杂任务,最难受的往往不是模型不够强,而是对话一变长,上下文就开始爆仓。 你还得一遍遍补背景、重讲流程,再加上工具调用吐出来的冗余日志,Token 像开了口子一样往外流。 最近看到腾讯开源的 TencentDB A…
腾讯开源了 TencentDB Agent Memory,通过分层记忆管理(符号化短期记忆+分层长期记忆)解决AI Agent长对话上下文爆仓问题,实测Token消耗最高降低61%,任务通过率提升超50%。