reinforcement-learning

#reinforcement-learning

Tmax-27b —— 一款面向小显存GPU的Qwen3.6-27b终端Agent，采用DPPO（强化学习）训练

Reddit r/LocalLLaMA ↗ · 3小时前

Ai2发布了Tmax-27B，一个基于Qwen3.6-27B并使用DPPO（RL）训练的终端Agent大语言模型。作者提供了经重要性矩阵校准的GGUF量化版本，即使在极低的比特宽度下也能在Agent基准测试中取得有竞争力的性能，并且移植了MTP草案头用于推测解码。

0 人收藏 0 人点赞

#reinforcement-learning

@samsja19: prime-rl 现在可以极快地训练1T参数的MoE模型，每步不到5分钟，约3天完成1000步。为实现这一...

X AI KOLs Following ↗ · 19小时前缓存

Prime Intellect 发布了 prime-rl v0.6.0，实现了万亿参数MoE规模的强化学习，每步时间低于5分钟，并优化了推理、训练和推出流程。

0 人收藏 0 人点赞

#reinforcement-learning

@eliebakouch: 在GLM-5上进行强化学习所需了解的所有基础设施内容 https://primeintellect.ai/blog/rl-at-1t-scale…

X AI KOLs Timeline ↗ · 19小时前缓存

Prime Intellect发布了prime-rl v0.6.0，支持在万亿参数规模的大型Mixture-of-Experts模型上进行高效强化学习，实现低于5分钟的步骤时间，并对异步强化学习进行了优化。

0 人收藏 0 人点赞

#reinforcement-learning

VibeThinker: 在推理上击败Opus 4.5的3B参数模型，采用新颖的SFT+GRPO方法

Hacker News Top ↗ · 20小时前缓存

本技术报告介绍了VibeThinker-3B，一个3B参数的密集模型，在AIME26和LiveCodeBench等基准测试上实现了前沿水平的推理性能，通过结合基于课程的SFT、多领域RL和离线自蒸馏，匹配或超越了DeepSeek V3.2和GLM-5等更大的模型。

0 人收藏 0 人点赞

#reinforcement-learning

@Ankur_Samanta_: 在多步推理强化学习后训练中关于信用分配的新工作介绍自重置策略优化 (SRPO…

X AI KOLs Timeline ↗ · 昨天缓存

自重置策略优化 (SRPO) 通过在多步推理强化学习后训练中定位第一个错误的推理步骤并从中学习反事实延续，而无需外部监督，来解决信用分配问题。

0 人收藏 0 人点赞

#reinforcement-learning

@kazukifujii: 这篇vLLM博客文章以非常清晰和图示化的方式解释了强化学习中的权重更新和KV缓存重计算，还涵盖了…

X AI KOLs Timeline ↗ · 昨天缓存

本文解释了vLLM用于强化学习的权重同步API，涵盖了它如何促进RL训练中的权重更新和KV缓存重计算，重点关注降低训练框架的复杂性。

0 人收藏 0 人点赞

#reinforcement-learning

@cwolferesearch: 我刚刚发表了一篇关于智能体强化学习的博客，涵盖了该领域10多个最新框架。以下是关键要点……链接……

X AI KOLs Timeline ↗ · 昨天缓存

一篇博客文章，总结了十个最新的智能体强化学习框架和最佳实践，涵盖模块化接口、轨迹结构、动作掩码、过程奖励、优势归一化、可扩展的 rollout、稳定性/探索以及任务课程。

0 人收藏 0 人点赞

#reinforcement-learning

@VukRosic99: 测试时强化学习 1. 获取一个未标注的问题 2. 从LLM中采样多个答案 3. 多数投票 → t…

X AI KOLs Timeline ↗ · 昨天缓存

介绍了测试时强化学习（TTRL），一种利用未标注数据上的多数投票创建伪标签以进行强化学习训练的方法，使LLM能够在不依赖真实答案的情况下自我改进。在AIME 2024上取得了显著提升（例如，Qwen-2.5-Math-7B提升159-211%）。

1 人收藏 1 人点赞

#reinforcement-learning

训练面向代理式手机使用的开放模型

Hugging Face Daily Papers ↗ · 昨天缓存

PhoneBuddy 结合真实应用和模拟应用环境来训练面向代理式手机使用的开放模型，通过混合强化学习在真实手机上实现了 45.33% 的任务成功率，表明模拟应用训练是对真实应用训练的补充。

0 人收藏 0 人点赞

#reinforcement-learning

Tmax：一种简单的终端智能体配方

Hugging Face Daily Papers ↗ · 昨天缓存

Tmax 引入了一种简化的终端智能体强化学习训练配方，通过新颖的数据生成分类法和扩展的开源数据集，使用 9B 参数模型实现了最先进的性能。

0 人收藏 0 人点赞

#reinforcement-learning

Nvidia的自主机器人研究（6分钟阅读）

TLDR AI ↗ · 昨天缓存

ENPIRE是一个框架，使编码代理能够通过真实世界的反馈循环自主改进机器人操作策略，在插针和剪扎带等灵巧任务上实现了99%的成功率。

0 人收藏 0 人点赞

#reinforcement-learning

@TheTuringPost: 用于 Agent RL 栈的 10 个开源工具 ↓ OpenPipe ART verl-agent Agent Lightning Unsloth OpenRLHF SkyRL NVIDIA’s P…

X AI KOLs Timeline ↗ · 2天前缓存

精心整理的 10 个用于通过强化学习训练 AI Agent 的开源工具，涵盖 OpenPipe ART、verl-agent、Agent Lightning 和 Unsloth 等框架，并介绍了各工具的使用场景和优势。

1 人收藏 1 人点赞

#reinforcement-learning

The data black hole at the center of AI

Reddit r/artificial ↗ · 2天前缓存

本文深入分析了AI的样本效率远低于人类的问题，指出前沿模型需要海量领域特定数据，而人类仅需少量示例即可学习，这种数据黑洞是当前AI发展的核心瓶颈。文章通过多个比较（标记量、机器人操控、驾驶）和反驳常见反对意见，论证了这一差距的严峻性，并探讨了对AI自动化目标的影响。

0 人收藏 0 人点赞

#reinforcement-learning

PolicyTrim: 提升视觉-语言-动作模型的本征策略效率

Hugging Face Daily Papers ↗ · 2天前缓存

PolicyTrim是一种基于强化学习的后训练框架，能将视觉-语言-动作模型的动作块利用率提升3倍，并将物理执行步骤减少51.4%，实现高达5.83倍的部署加速。

0 人收藏 0 人点赞

#reinforcement-learning

@dair_ai: // 自对弈加上一点人类数据 // 结合人类演示和自对弈强化学习的超酷论文。30分钟…

X AI KOLs Following ↗ · 3天前缓存

一篇研究论文，将少量人类演示作为正则化目标与自对弈强化学习相结合，从而使用极少的人类数据（30分钟对比数千小时）并在单个消费级GPU上训练15小时，实现与人类兼容的驾驶策略。

0 人收藏 0 人点赞

#reinforcement-learning

@TheTuringPost: 开源代理强化训练器（ART）——将GRPO嵌入任何Python应用 → 您的应用定义任务和奖励…

X AI KOLs Timeline ↗ · 3天前缓存

代理强化训练器（ART）是一个开源框架，将基于GRPO的强化学习嵌入任何Python应用，使代理能够通过环境交互学习，利用轨迹评分和LoRA更新，据称使用Qwen 2.5 14B模型在邮件检索任务上超越OpenAI的o3。

0 人收藏 0 人点赞

#reinforcement-learning

@robertnishihara: 一个关于RL中解耦重要性的绝佳案例。来自论文：LLM生成在预填充和解码之间交替…

X AI KOLs Following ↗ · 3天前缓存

Robert Nishihara 强调了一篇关于解耦RL工作负载的论文，表明使用计算优化的H800进行预填充，带宽优化的H20进行解码，可以分别将rollout时间减少21-51%和47%，强调没有单一硬件类型适合所有阶段。

0 人收藏 0 人点赞

#reinforcement-learning

@raydistributed: RollArt 是大规模强化学习中去中心化的一个令人印象深刻的示例。https://cse.ust.hk/~weiwa/papers/rollart-osdi26.p…

X AI KOLs Following ↗ · 3天前缓存

RollArt 提出了一种用于大规模强化学习的解耦架构，展示了在效率和可扩展性方面的显著提升。

0 人收藏 0 人点赞

#reinforcement-learning

基于多头注意力的特征提取器与Soft Actor-Critic结合的增材制造孔隙率预测及工艺参数优化

arXiv cs.AI ↗ · 3天前缓存

本文提出了一种新颖的架构，将多头注意力与Soft Actor-Critic算法相结合，用于增材制造中的孔隙率预测和工艺参数优化，相比标准强化学习方法实现了更快的收敛速度和更高的奖励值。

0 人收藏 0 人点赞

#reinforcement-learning

基于 Lean 的过程验证强化学习用于定理证明

arXiv cs.AI ↗ · 3天前缓存

本文提出了过程验证强化学习，利用 Lean 证明助手作为过程预言机，在训练期间提供细粒度的策略级反馈，从而提升定理证明性能。

0 人收藏 0 人点赞

reinforcement-learning

提交意见反馈