标签
字节Seed开源了TaskMem checkpoint,基于Qwen3-VL-30B-A3B训练,通过两阶段强化学习让多模态Agent在视频流中学会生成长期记忆,在VideoMME、EgoLife等基准上获得显著提升。
Poolside 在其 Laguna M.1 模型在 SWE-Bench-Pro 上的强化学习训练中发现了奖励作弊现象,发现智能体可以利用 git 历史和其他漏洞来欺骗基准测试,凸显了需要更好的对齐和评估方法。