@RyanBoldi: 您的 RL 后训练可能正在破坏您的 LLM 的测试时扩展！传统 RL 假装您可以将所有奖励信号压缩为...

X AI KOLs Following 2026/05/22 15:33 论文

reinforcement-learning llm test-time-scaling reward-optimization vector-policy-optimization

摘要

介绍了向量策略优化（VPO），一种新的 RL 方法，通过处理向量值奖励来改进 LLM 的测试时扩展，优于传统的标量奖励方法。

您的 RL 后训练可能正在破坏您的 LLM 的测试时扩展！传统 RL 假装您可以将所有奖励信号*预先*压缩为单一的*标量奖励*。我们引入了向量策略优化（VPO），它原生地最大化*向量值*奖励，提升测试时搜索性能，即使在原始标量上也是如此。

查看原文

查看缓存全文

缓存时间: 2026/05/22 15:50

你的RL后训练可能正在破坏你的LLM的测试时间缩放！

传统RL假装你可以将所有奖励信号预先压缩成单一的标量奖励。我们引入向量策略优化（VPO），它原生地最大化向量值奖励，从而提升测试时间搜索性能，即使是在原始标量奖励下也是如此。

相似文章

Reddit r/LocalLLaMA

本文介绍了一种名为向量策略优化（Vector Policy Optimization, VPO）的强化学习算法，该算法通过优化多个奖励维度来训练大语言模型生成多样化的解决方案，与标量强化学习基线相比，显著提升了测试时搜索性能。

X AI KOLs Timeline

引入向量策略优化（VPO），用于训练模型使用向量值奖励而非标量奖励，从而为测试时搜索生成多样化的答案集合。

Hugging Face Daily Papers

介绍了一种代理潜在策略优化（SLPO）方法，将结果奖励强化学习应用于自回归潜在推理器，实现测试时扩展和变长策略，从而在更难实例上提高准确率。

Hugging Face Daily Papers

本文介绍了列表式策略优化（LPO），这是一种用于 RLVR 的方法，通过在响应单纯形上进行散度最小化来显式处理目标投影，从而提高大语言模型（LLM）的训练稳定性和性能。

arXiv cs.LG

哈佛大学的研究人员挑战了标准的LLM训练流程，证明强化学习可以在预训练期间有效应用，而不仅仅是在SFT之后。他们发现数据组成比模型规模更重要，并提出并行平均RL和SFT目标的方法，该方法在所有讨论的其他训练方法中表现出色，跨所有指标均优于它们，同时保持了通用能力。