rollout

标签

Cards List
#rollout

ProcessThinker: 通过基于展开的过程奖励增强多模态大语言模型推理

arXiv cs.CL · 昨天 缓存

ProcessThinker 引入了一种实用的后训练流程,无需训练显式的过程奖励模型即可提供步骤级的过程奖励。它利用基于展开的奖励为多模态大语言模型中的多步推理提供密集的信用分配,在视频基准测试上持续提升性能。

0 人收藏 0 人点赞
#rollout

MiniMax M3 开始在 API 上推出

Reddit r/singularity · 2026-06-01

MiniMax 正在 API 上推出其 M3 模型,具有 100万 token 的上下文窗口。

0 人收藏 0 人点赞
#rollout

基于同伴成功与失败的多 rollout 在策略蒸馏

arXiv cs.LG · 2026-05-14 缓存

提出多 rollout 在策略蒸馏 (MOPD),一种将教师条件化于同伴成功和失败的 rollout 以提供更密集的 token 级监督进行语言模型后训练的方法,在多个基准上提升了性能。

0 人收藏 0 人点赞
#rollout

GPT-Image-2 正式推出

Reddit r/singularity · 2026-04-20

OpenAI 正在推出 GPT-Image-2,这是一款全新的图像生成模型,标志着其图像生成能力的重大升级。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈