FineVerify:通过细粒度自我验证扩展智能搜索的测试时计算
摘要
FineVerify是一个针对智能搜索的自我验证框架,它将问题分解为子问题,验证采样候选,并选择最佳候选,在多个基准测试上取得了相对于基线的显著准确率提升,包括使GPT-5-mini在BrowseComp-Plus上超越GPT-5。
查看缓存全文
缓存时间: 2026/06/02 15:36
论文页面 - FineVerify:通过细粒度自我验证扩展智能体搜索的测试时计算
来源:https://huggingface.co/papers/2606.00660
摘要
FineVerify 是一个用于智能体搜索的自我验证框架,通过分解为可检查的子问题并进行轨迹选择来提高准确性。
智能体搜索(https://huggingface.co/papers?q=Agentic%20search)要求语言模型智能体(https://huggingface.co/papers?q=language%20model%20agents)探索多个来源并回答复杂的信息查找问题。扩展测试时计算(https://huggingface.co/papers?q=test-time%20compute)是提升这些智能体的一种有前景的方法,但当前方法可能失败,因为正确答案往往稀疏且基于分数的选择(https://huggingface.co/papers?q=score-based%20selection)依赖于模型校准。我们提出 FineVerify,一种细粒度自我验证(https://huggingface.co/papers?q=fine-grained%20self-verification)框架,它将每个问题分解为可检查的子问题(https://huggingface.co/papers?q=checkable%20sub-questions),对每个采样候选(https://huggingface.co/papers?q=sampled%20candidates)的每个子问题进行验证,并选择具有最高聚合分数(https://huggingface.co/papers?q=aggregated%20score)的候选。这种逐项检查的结构将选择转化为更简单的局部判断,并在相同的明确标准下产生分数。在四个智能体搜索(https://huggingface.co/papers?q=agentic%20search)基准测试和两个模型上,FineVerify 始终优于标准扩展基线。仅需四次采样轨迹,它平均使 GPT-5-mini 提升 8.2 个准确率点,使 Gemini-3-flash 提升 5.6%。在 12 次采样下,FineVerify 使 GPT-5-mini 在 BrowseComp-Plus(https://huggingface.co/papers?q=BrowseComp-Plus)上超越了前沿模型 GPT-5。除了准确性,FineVerify 还生成可解释的验证轨迹,有助于审计基准测试错误,暗示了其在检查智能体搜索(https://huggingface.co/papers?q=agentic%20search)系统方面的更广泛应用。代码和数据可在 https://github.com/XuZhao0/fineverify 获取。
查看 arXiv 页面(https://arxiv.org/abs/2606.00660)查看 PDF(https://arxiv.org/pdf/2606.00660)GitHub2(https://github.com/XuZhao0/fineverify)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.00660)
引用此论文的模型0
无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.00660 以从此页面链接。
引用此论文的数据集0
无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.00660 以从此页面链接。
引用此论文的 Spaces0
无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.00660 以从此页面链接。
包含此论文的收藏0
无收藏包含此论文
将此论文添加到收藏(https://huggingface.co/new-collection)以从此页面链接。
相似文章
AgentV-RL:用智能体验证器扩展奖励建模
AgentV-RL引入了智能体验证器框架,通过具有工具增强的前向和后向智能体进行双向验证来增强奖励建模,相比最先进的ORM实现了25.2%的性能提升。该方法通过将多轮深思熟虑过程与强化学习相结合,解决了验证器在复杂推理任务中的误差传播和基础性不足等问题。
VeriGate:用于GRPO的验证器门控步级监督
VeriGate通过验证器门控步级监督扩展了GRPO,在验证器奖励退化时提供细粒度的信用分配。在1.5B和7B模型的推理基准测试上实现了显著的准确率提升。
程序验证的智能体证明
本文在Clever基准的程序验证任务中,采用智能体证明框架评估Claude Code,在规范生成和端到端验证方面取得了超过98%的成功率,揭示出现有基准可能不足以评估现代智能体证明器的能力。
大规模验证智能体开发(8分钟阅读)
Cognition的Ido Pesok分享了将自主端到端测试集成到Devin中的经验,指出这是Devin会话首次被异步触发的数量超过交互式触发,使得合并前验证的结果成为硬性要求而非锦上添花。
三思而后行:面向具身智能体的验证器引导动作选择
提出VeGAS框架,一种针对基于MLLM的具身智能体的测试时框架,该框架采样多个候选动作,并利用生成式验证器选择最可靠的动作,在挑战性任务上相比CoT基线实现了高达36%的相对性能提升。