verifiers

标签

Cards List
#verifiers

在阅读了大约15篇关于智能体循环的论文(包括成功与失败的案例)后,预测成功的关键因素是验证器,而非模型本身

Reddit r/AI_Agents · 4天前

一篇多推文分析概述了约15篇智能体循环论文,得出结论:预测成功的关键因素是验证器,而非模型本身。示例表明,稳健、不可被博弈的检查(如编译器、测试、可验证奖励)能显著提升性能,而失败则源于缺乏此类验证器或存在被博弈的漏洞。

0 人收藏 0 人点赞
#verifiers

@omarsar0: 验证器至关重要。没有好的验证器,/goal 和 /loop 经常出问题。任何超出 LLM 分布范围的内容,……

X AI KOLs Following · 2026-06-15 缓存

强调了验证器对于基于 LLM 的智能体的重要性,指出超出分布范围的任务会导致失败,并建议调整自定义验证器。

0 人收藏 0 人点赞
#verifiers

@neural_avb: 正在研究推理训练文档。准备编写验证器环境,然后用 Unsloth/TRL 搞起来!如果一切顺利,很快就会出视频。

X AI KOLs Timeline · 2026-06-11 缓存

用户正在使用 Unsloth 和 TRL 实现带验证器的推理训练,报告了使用小型 SLM 和微型 RM 本地生成类似 GRPO 的样本的进展,并承诺很快发布视频。

0 人收藏 0 人点赞
#verifiers

通过对抗性黑客-修复循环强化代理基准测试

Hugging Face Daily Papers · 2026-06-08 缓存

研究人员提出了一种利用LLM代理的对抗性黑客-修复循环,自动修补代理基准测试中脆弱的验证器,在KernelBench上将攻击成功率从62%降至0%,并证明较弱的防御者可以压制更强的攻击者。

0 人收藏 0 人点赞
#verifiers

@hwchase17:验证器对于扩展评估/强化学习很重要,但成本会累积!那么,我们能让它们更便宜吗?@Vtrived... 等人的一些精彩工作

X AI KOLs Following · 2026-06-02 缓存

推文重点介绍了来自Harvey的研究人员关于让验证器更便宜以扩展评估和强化学习的工作。

0 人收藏 0 人点赞
#verifiers

@LangChain: https://x.com/LangChain/status/2061864647884464430

X AI KOLs Following · 2026-06-02 缓存

LangChain和Harvey的一项研究探索了通过分批标准评估和使用开源模型来降低验证法律代理输出成本的方法,实现了数量级的成本节约,同时保持了接近前沿的性能。

0 人收藏 0 人点赞
#verifiers

基于评分标准的强化学习中的奖励黑客问题

Hugging Face Daily Papers · 2026-05-12 缓存

本文研究了基于评分标准的强化学习中的奖励黑客现象,分析了训练验证器与评估指标之间的分歧。文章提出了一种针对“自我内化差距”的诊断方法,并证明更强的验证能力虽然能减少但无法完全消除奖励黑客问题。

0 人收藏 0 人点赞
#verifiers

AgentV-RL:用智能体验证器扩展奖励建模

arXiv cs.CL · 2026-04-20 缓存

AgentV-RL引入了智能体验证器框架,通过具有工具增强的前向和后向智能体进行双向验证来增强奖励建模,相比最先进的ORM实现了25.2%的性能提升。该方法通过将多轮深思熟虑过程与强化学习相结合,解决了验证器在复杂推理任务中的误差传播和基础性不足等问题。

0 人收藏 0 人点赞
#verifiers

解决数学应用题

OpenAI Blog · 2021-10-29 缓存

OpenAI 训练了一个使用验证器的系统来解决小学数学应用题,准确率达到儿童水平的 90%,性能几乎是微调后的 GPT-3 的两倍。该方法通过训练验证器来评估候选解决方案并选择最佳方案,解决了语言模型在多步推理中的弱点。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈