标签
一篇多推文分析概述了约15篇智能体循环论文,得出结论:预测成功的关键因素是验证器,而非模型本身。示例表明,稳健、不可被博弈的检查(如编译器、测试、可验证奖励)能显著提升性能,而失败则源于缺乏此类验证器或存在被博弈的漏洞。
强调了验证器对于基于 LLM 的智能体的重要性,指出超出分布范围的任务会导致失败,并建议调整自定义验证器。
用户正在使用 Unsloth 和 TRL 实现带验证器的推理训练,报告了使用小型 SLM 和微型 RM 本地生成类似 GRPO 的样本的进展,并承诺很快发布视频。
研究人员提出了一种利用LLM代理的对抗性黑客-修复循环,自动修补代理基准测试中脆弱的验证器,在KernelBench上将攻击成功率从62%降至0%,并证明较弱的防御者可以压制更强的攻击者。
推文重点介绍了来自Harvey的研究人员关于让验证器更便宜以扩展评估和强化学习的工作。
LangChain和Harvey的一项研究探索了通过分批标准评估和使用开源模型来降低验证法律代理输出成本的方法,实现了数量级的成本节约,同时保持了接近前沿的性能。
本文研究了基于评分标准的强化学习中的奖励黑客现象,分析了训练验证器与评估指标之间的分歧。文章提出了一种针对“自我内化差距”的诊断方法,并证明更强的验证能力虽然能减少但无法完全消除奖励黑客问题。
AgentV-RL引入了智能体验证器框架,通过具有工具增强的前向和后向智能体进行双向验证来增强奖励建模,相比最先进的ORM实现了25.2%的性能提升。该方法通过将多轮深思熟虑过程与强化学习相结合,解决了验证器在复杂推理任务中的误差传播和基础性不足等问题。
OpenAI 训练了一个使用验证器的系统来解决小学数学应用题,准确率达到儿童水平的 90%,性能几乎是微调后的 GPT-3 的两倍。该方法通过训练验证器来评估候选解决方案并选择最佳方案,解决了语言模型在多步推理中的弱点。