标签
ProcessThinker 引入了一种实用的后训练流程,无需训练显式的过程奖励模型即可提供步骤级的过程奖励。它利用基于展开的奖励为多模态大语言模型中的多步推理提供密集的信用分配,在视频基准测试上持续提升性能。
MiniMax 正在 API 上推出其 M3 模型,具有 100万 token 的上下文窗口。
提出多 rollout 在策略蒸馏 (MOPD),一种将教师条件化于同伴成功和失败的 rollout 以提供更密集的 token 级监督进行语言模型后训练的方法,在多个基准上提升了性能。
OpenAI 正在推出 GPT-Image-2,这是一款全新的图像生成模型,标志着其图像生成能力的重大升级。