grpo

#grpo

VibeThinker: 在推理上击败Opus 4.5的3B参数模型，采用新颖的SFT+GRPO方法

Hacker News Top ↗ · 昨天缓存

本技术报告介绍了VibeThinker-3B，一个3B参数的密集模型，在AIME26和LiveCodeBench等基准测试上实现了前沿水平的推理性能，通过结合基于课程的SFT、多领域RL和离线自蒸馏，匹配或超越了DeepSeek V3.2和GLM-5等更大的模型。

0 人收藏 0 人点赞

#grpo

@TheTuringPost: 开源代理强化训练器（ART）——将GRPO嵌入任何Python应用 → 您的应用定义任务和奖励…

X AI KOLs Timeline ↗ · 3天前缓存

代理强化训练器（ART）是一个开源框架，将基于GRPO的强化学习嵌入任何Python应用，使代理能够通过环境交互学习，利用轨迹评分和LoRA更新，据称使用Qwen 2.5 14B模型在邮件检索任务上超越OpenAI的o3。

0 人收藏 0 人点赞

#grpo

奖励作为具身世界模型的智能体

arXiv cs.AI ↗ · 4天前缓存

本文介绍了奖励作为智能体（Reward as an Agent）和DynDiff-GRPO，以解决具身世界模型中强化学习的奖励黑客攻击和有限探索问题，实现了显著的准确率提升。

0 人收藏 0 人点赞

#grpo

MetaResearcher：在对抗性虚拟环境中通过自我反思强化学习扩展深度研究

arXiv cs.AI ↗ · 4天前缓存

MetaResearcher 提出了一种框架，用于在对抗性虚拟环境中通过自我反思强化学习训练深度研究智能体，解决了静态环境和仅事实检索任务的局限性。

0 人收藏 0 人点赞

#grpo

@SergioPaniego：连续批处理刚刚在TRL的GRPO中实现，在64次生成时，它比普通生成运行更快且使用更少的VRAM…

X AI KOLs Following ↗ · 4天前缓存

连续批处理已添加到TRL的GRPO中，提高了速度并减少了VRAM使用，无需vLLM。推文解释其工作原理及适用时机。

0 人收藏 0 人点赞

#grpo

@akshay_pachaar: Karpathy关于强化学习的预测正在成真！他指出奖励函数不可靠，并认为单一的奖励…

X AI KOLs Following ↗ · 4天前缓存

Karpathy对强化学习中奖励函数的批评被OpenPipe的ART框架通过RULER解决，该框架允许使用自然语言定义奖励并由LLM评估，取代了手动奖励工程。

0 人收藏 0 人点赞

#grpo

DataClaw0：从原始流中智能裁剪多模态数据

Hugging Face Daily Papers ↗ · 5天前缓存

DataClaw0提出了一种智能数据裁剪范式，利用可学习的数据处理来结构化高熵多模态流，通过在一个新型基准上进行SFT和GRPO实现了稳健的对齐。

0 人收藏 0 人点赞

#grpo

超越奖励工程：长上下文强化学习的数据配方

arXiv cs.CL ↗ · 6天前缓存

本文表明，通过精心设计的长上下文强化学习数据配方，结合基于结果的最小GRPO，能够显著提升多个模型和基准测试的推理能力，并迁移到GAIA和BrowseComp等智能体任务。

0 人收藏 0 人点赞

#grpo

SFT过训练预测RLVR下因熵崩溃导致的排名反转

arXiv cs.LG ↗ · 6天前缓存

本文证明，为GRPO选择pass@1最高的SFT检查点可能会失败，因为SFT过训练压缩了输出多样性，导致强化学习中的熵崩溃和排名反转。在Qwen2.5-Coder-3B和DeepSeek-Coder-6.7B上的实验表明，预RL熵与GRPO结果呈正相关，并且一个两阶段诊断方法可以检测高风险检查点。

0 人收藏 0 人点赞

#grpo

Dynamic Rollout Editing：减少RL训练推理模型中的过度思考

arXiv cs.CL ↗ · 2026-06-17 缓存

本文介绍了一种训练时干预方法——动态展开编辑（Dynamic Rollout Editing, DRE），用于减少GRPO式强化学习推理模型中的过度思考。DRE通过保留可到达解的路径前缀并偏好经过验证的较短版本，来编辑成功轨迹，从而削弱对不必要思考的偏好。

0 人收藏 0 人点赞

#grpo

STARE：惊奇度引导的令牌级优势重加权实现策略熵稳定性

Hugging Face Daily Papers ↗ · 2026-06-17 缓存

STARE 通过引入惊奇度引导的令牌级优势重加权和目标熵调节，解决了基于GRPO的大语言模型强化学习中的策略熵崩溃问题，在AIME基准上实现了4%-8%的准确率提升。

0 人收藏 0 人点赞

#grpo

CoRA: 面向可靠思维链推理的置信度-理由对齐

arXiv cs.CL ↗ · 2026-06-16 缓存

本文介绍了CoRA，一种基于GRPO的强化学习框架，旨在将LLM的置信度与生成的理由对齐，以提高思维链推理的可靠性，在多个基准测试中将不对齐误差降低了高达26.51%。

0 人收藏 0 人点赞

#grpo

@neural_avb: 用我的 SLM 在本地生成类似 GRPO 的 rollout，并用这个微型 RM 作为评分标准。接下来我将在…

X AI KOLs Timeline ↗ · 2026-06-11 缓存

Neural_avb 发布了一个轻量级的 Answer-eq 奖励模型，用于问答任务的强化学习训练，声称与外部评判 LM 的一致性达到 80%，且比 F1/ROUGE/BertScore 更快。

0 人收藏 0 人点赞

#grpo

ProcessThinker: 通过基于展开的过程奖励增强多模态大语言模型推理

arXiv cs.CL ↗ · 2026-06-11 缓存

ProcessThinker 引入了一种实用的后训练流程，无需训练显式的过程奖励模型即可提供步骤级的过程奖励。它利用基于展开的奖励为多模态大语言模型中的多步推理提供密集的信用分配，在视频基准测试上持续提升性能。

0 人收藏 0 人点赞

#grpo

揭秘隐藏状态递归：基于在策略强化学习的可切换隐式推理

Hugging Face Daily Papers ↗ · 2026-06-11 缓存

SWITCH 是一种可切换隐式推理框架，它使用显式边界标记，通过基于在策略的强化学习实现可训练且可解释的递归隐状态推理，优于先前的方法。

0 人收藏 0 人点赞

#grpo

InterleaveThinker: 增强智能体交错生成

Hugging Face Daily Papers ↗ · 2026-06-11 缓存

InterleaveThinker 引入了一种多智能体流水线，包含规划器和评论家智能体，使现有图像生成器具备交错文本-图像生成能力，其性能与最先进模型相当，并提升了推理基准测试成绩。

0 人收藏 0 人点赞

#grpo

@akshay_pachaar: https://x.com/akshay_pachaar/status/2064700531600458093

X AI KOLs Following ↗ · 2026-06-10 缓存

本文介绍了如何使用GRPO微调LLM（Qwen3-8B）以实现可靠的JSON结构化输出，将模式准确率从62%提升至82%，超越了GPT-4.1的58%。

0 人收藏 0 人点赞

#grpo

推理还是记忆？LLM强化学习中的方向感知多样性探索

arXiv cs.AI ↗ · 2026-06-10 缓存

本文介绍了DiRL，一种方向感知的强化学习框架，能够在LLM探索中区分推理驱动的多样性和记忆驱动的多样性。它从模型表示中提取内在的推理-记忆方向，并塑造奖励以优先考虑与推理一致的探索，在数学和通用推理基准上表现出改进。

0 人收藏 0 人点赞

#grpo

LEAF: 面向语音感知大语言模型后训练的无分支树生长方法

arXiv cs.LG ↗ · 2026-06-09 缓存

本文提出LEAF，一种基于回顾树的强化学习方法，用于语音感知大语言模型后训练，无需在线分支即可改进信用分配。在语音问答和语音翻译基准测试中，LEAF优于GRPO。

0 人收藏 0 人点赞

#grpo

N-GRPO：嵌入级邻居混合以增强策略优化

Hugging Face Daily Papers ↗ · 2026-06-09 缓存

N-GRPO 在 GRPO 框架中引入语义邻居混合，以增强数学推理多样性并保持语义一致性，在数学基准和分布外任务上均取得了提升。

0 人收藏 0 人点赞

grpo

提交意见反馈