标签
名为 OpenResearch 的新功能支持复现和基于论文进行实验,通过一键模板即可在 ToolRL 上训练 Vector Policy Optimization (VPO),从而实现多样化的答案生成并改进测试时搜索。