@askalphaxiv: 这里是我们全新功能 OpenResearch 的早期预览，用于复现和基于论文进行实验。我们…

X AI KOLs Timeline 2026/05/26 17:59 工具

openresearch vpo vector-policy-optimization toolrl research-reproduction gpu-training

摘要

名为 OpenResearch 的新功能支持复现和基于论文进行实验，通过一键模板即可在 ToolRL 上训练 Vector Policy Optimization (VPO)，从而实现多样化的答案生成并改进测试时搜索。

以下是 OpenResearch 的早期预览，这是我们全新的功能，用于复现和基于论文进行实验我们整理了一个模板，让你可以在单个 GPU 上一键训练 ToolRL 上的 VPO Vector Policy Optimization 通过随机加权奖励维度来训练模型生成多样化的答案集合，使每个答案专注于不同的权衡结果是在样本预算增加时获得更好的测试时搜索。下面来看一看！

查看原文

查看缓存全文

缓存时间: 2026/05/26 19:13

以下是OpenResearch的早期预览，这是我们全新的功能，用于复现论文并在此基础上进行实验。

我们制作了一个模板，让你只需点击一次，就能在单GPU上基于ToolRL训练VPO（向量策略优化）。

向量策略优化通过随机加权奖励维度，让模型生成多样化的答案集，使得每个答案专注于不同的权衡点。

结果是在样本预算增长时，测试时的搜索效果更佳。快来查看吧！

@askalphaxiv: 这里是我们全新功能 OpenResearch 的早期预览，用于复现和基于论文进行实验。我们…

相似文章

@ishapuri101: 我一直觉得强化学习把所有奖励信号压缩成一个标量是不合理的。今天，我们解决了这个问题！引入向量策略优化…

@oshaikh13：超酷的点子 @OpenAI，我对这次研究预览超兴奋——从人类与电脑的“非聊天”交互中学习，将解锁一大堆超酷的互动方式（我们还为此发了篇论文！！https://arxiv.org/abs/2505.10831）

向量策略优化：面向多样性的训练提升测试时搜索性能

构建了一款从 PDF 中映射研究空白点的工具——处于测试阶段，期待机器学习研究人员来“挑刺”

@rohanpaul_ai: Meta、斯坦福、谷歌等多家顶级实验室的新论文提出了AutoResearchClaw。表明自动化研究改进…

提交意见反馈