@askalphaxiv: 这里是我们全新功能 OpenResearch 的早期预览,用于复现和基于论文进行实验。我们…
摘要
名为 OpenResearch 的新功能支持复现和基于论文进行实验,通过一键模板即可在 ToolRL 上训练 Vector Policy Optimization (VPO),从而实现多样化的答案生成并改进测试时搜索。
查看缓存全文
缓存时间: 2026/05/26 19:13
以下是OpenResearch的早期预览,这是我们全新的功能,用于复现论文并在此基础上进行实验。
我们制作了一个模板,让你只需点击一次,就能在单GPU上基于ToolRL训练VPO(向量策略优化)。
向量策略优化通过随机加权奖励维度,让模型生成多样化的答案集,使得每个答案专注于不同的权衡点。
结果是在样本预算增长时,测试时的搜索效果更佳。快来查看吧!
相似文章
@ishapuri101: 我一直觉得强化学习把所有奖励信号压缩成一个标量是不合理的。今天,我们解决了这个问题!引入向量策略优化…
引入向量策略优化(VPO),用于训练模型使用向量值奖励而非标量奖励,从而为测试时搜索生成多样化的答案集合。
@oshaikh13:超酷的点子 @OpenAI,我对这次研究预览超兴奋——从人类与电脑的“非聊天”交互中学习,将解锁一大堆超酷的互动方式(我们还为此发了篇论文!!https://arxiv.org/abs/2505.10831)
OpenAI 发布研究预览,探索如何超越聊天界面,从人类与电脑的交互中学习,并同步上线相关 arxiv 论文。
向量策略优化:面向多样性的训练提升测试时搜索性能
本文介绍了一种名为向量策略优化(Vector Policy Optimization, VPO)的强化学习算法,该算法通过优化多个奖励维度来训练大语言模型生成多样化的解决方案,与标量强化学习基线相比,显著提升了测试时搜索性能。
构建了一款从 PDF 中映射研究空白点的工具——处于测试阶段,期待机器学习研究人员来“挑刺”
作者介绍了 Papira,这是一款测试阶段的工具,可分析上传的研究论文,以映射机器学习与自然语言处理(NLP)子领域内的覆盖情况并识别研究空白。
@rohanpaul_ai: Meta、斯坦福、谷歌等多家顶级实验室的新论文提出了AutoResearchClaw。表明自动化研究改进…
来自Meta、斯坦福和谷歌的一篇新论文提出了AutoResearchClaw,该方法通过整合故障恢复、辩论和选择性人工输入来改进自动化研究。它在ARC-Bench上以54.7%的优势超越了AI Scientist v2,并揭示了当受到过程约束而非无限自由时,自主性会得到增强。