标签
Ai2发布了Tmax-27B,一个基于Qwen3.6-27B并使用DPPO(RL)训练的终端Agent大语言模型。作者提供了经重要性矩阵校准的GGUF量化版本,即使在极低的比特宽度下也能在Agent基准测试中取得有竞争力的性能,并且移植了MTP草案头用于推测解码。
Prime Intellect 发布了 prime-rl v0.6.0,实现了万亿参数MoE规模的强化学习,每步时间低于5分钟,并优化了推理、训练和推出流程。
Prime Intellect发布了prime-rl v0.6.0,支持在万亿参数规模的大型Mixture-of-Experts模型上进行高效强化学习,实现低于5分钟的步骤时间,并对异步强化学习进行了优化。
本技术报告介绍了VibeThinker-3B,一个3B参数的密集模型,在AIME26和LiveCodeBench等基准测试上实现了前沿水平的推理性能,通过结合基于课程的SFT、多领域RL和离线自蒸馏,匹配或超越了DeepSeek V3.2和GLM-5等更大的模型。
自重置策略优化 (SRPO) 通过在多步推理强化学习后训练中定位第一个错误的推理步骤并从中学习反事实延续,而无需外部监督,来解决信用分配问题。
本文解释了vLLM用于强化学习的权重同步API,涵盖了它如何促进RL训练中的权重更新和KV缓存重计算,重点关注降低训练框架的复杂性。
一篇博客文章,总结了十个最新的智能体强化学习框架和最佳实践,涵盖模块化接口、轨迹结构、动作掩码、过程奖励、优势归一化、可扩展的 rollout、稳定性/探索以及任务课程。
介绍了测试时强化学习(TTRL),一种利用未标注数据上的多数投票创建伪标签以进行强化学习训练的方法,使LLM能够在不依赖真实答案的情况下自我改进。在AIME 2024上取得了显著提升(例如,Qwen-2.5-Math-7B提升159-211%)。
PhoneBuddy 结合真实应用和模拟应用环境来训练面向代理式手机使用的开放模型,通过混合强化学习在真实手机上实现了 45.33% 的任务成功率,表明模拟应用训练是对真实应用训练的补充。
Tmax 引入了一种简化的终端智能体强化学习训练配方,通过新颖的数据生成分类法和扩展的开源数据集,使用 9B 参数模型实现了最先进的性能。
ENPIRE是一个框架,使编码代理能够通过真实世界的反馈循环自主改进机器人操作策略,在插针和剪扎带等灵巧任务上实现了99%的成功率。
精心整理的 10 个用于通过强化学习训练 AI Agent 的开源工具,涵盖 OpenPipe ART、verl-agent、Agent Lightning 和 Unsloth 等框架,并介绍了各工具的使用场景和优势。
本文深入分析了AI的样本效率远低于人类的问题,指出前沿模型需要海量领域特定数据,而人类仅需少量示例即可学习,这种数据黑洞是当前AI发展的核心瓶颈。文章通过多个比较(标记量、机器人操控、驾驶)和反驳常见反对意见,论证了这一差距的严峻性,并探讨了对AI自动化目标的影响。
PolicyTrim是一种基于强化学习的后训练框架,能将视觉-语言-动作模型的动作块利用率提升3倍,并将物理执行步骤减少51.4%,实现高达5.83倍的部署加速。
一篇研究论文,将少量人类演示作为正则化目标与自对弈强化学习相结合,从而使用极少的人类数据(30分钟对比数千小时)并在单个消费级GPU上训练15小时,实现与人类兼容的驾驶策略。
代理强化训练器(ART)是一个开源框架,将基于GRPO的强化学习嵌入任何Python应用,使代理能够通过环境交互学习,利用轨迹评分和LoRA更新,据称使用Qwen 2.5 14B模型在邮件检索任务上超越OpenAI的o3。
Robert Nishihara 强调了一篇关于解耦RL工作负载的论文,表明使用计算优化的H800进行预填充,带宽优化的H20进行解码,可以分别将rollout时间减少21-51%和47%,强调没有单一硬件类型适合所有阶段。
RollArt 提出了一种用于大规模强化学习的解耦架构,展示了在效率和可扩展性方面的显著提升。
本文提出了一种新颖的架构,将多头注意力与Soft Actor-Critic算法相结合,用于增材制造中的孔隙率预测和工艺参数优化,相比标准强化学习方法实现了更快的收敛速度和更高的奖励值。
本文提出了过程验证强化学习,利用 Lean 证明助手作为过程预言机,在训练期间提供细粒度的策略级反馈,从而提升定理证明性能。