标签
名为 OpenResearch 的新功能支持复现和基于论文进行实验,通过一键模板即可在 ToolRL 上训练 Vector Policy Optimization (VPO),从而实现多样化的答案生成并改进测试时搜索。
Andrej Karpathy 开源了一个自主研究智能体,它能在单张 GPU 上通宵运行自己的机器学习实验,通过编辑代码自动迭代改进,并保留那些能降低验证损失的变化。