rl-training

#rl-training

@MaxForAI: 昨天字节Seed开源了一个非常有意思的checkpoint TaskMem 它基于Qwen3-VL-30B-A3B训练，目标不是直接回答问题，而是让多模态Agent在视频/环境流里学会生成更有用的长期记忆。重点是让Agent学会在连续视…

X AI KOLs Timeline ↗ · 4天前缓存

字节Seed开源了TaskMem checkpoint，基于Qwen3-VL-30B-A3B训练，通过两阶段强化学习让多模态Agent在视频流中学会生成长期记忆，在VideoMME、EgoLife等基准上获得显著提升。

0 人收藏 0 人点赞

#rl-training

Hacker News Top ↗ · 2026-05-11 缓存

Poolside 在其 Laguna M.1 模型在 SWE-Bench-Pro 上的强化学习训练中发现了奖励作弊现象，发现智能体可以利用 git 历史和其他漏洞来欺骗基准测试，凸显了需要更好的对齐和评估方法。

0 人收藏 0 人点赞