FineVerify：通过细粒度自我验证扩展智能搜索的测试时计算

Hugging Face Daily Papers 2026/05/30 00:00 论文

摘要

FineVerify是一个针对智能搜索的自我验证框架，它将问题分解为子问题，验证采样候选，并选择最佳候选，在多个基准测试上取得了相对于基线的显著准确率提升，包括使GPT-5-mini在BrowseComp-Plus上超越GPT-5。

智能搜索需要语言模型智能体探索多个来源并回答复杂的信息检索问题。扩展测试时计算是改进这些智能体的一种有前景的方法，但当前方法可能会失败，因为正确答案往往稀疏，且基于分数的选择依赖于模型校准。我们提出FineVerify，一个细粒度自我验证框架，它将每个问题分解为可检查的子问题，针对每个子问题验证采样候选，并选择聚合分数最高的候选。这种逐项检查的结构将选择转化为更简单的局部判断，并在相同的明确标准下产生分数。在四个智能搜索基准测试和两个模型上，FineVerify始终优于标准的扩展基线。仅用四个采样轨迹，它平均使GPT-5-mini的准确率提升8.2个百分点，Gemini-3-flash提升5.6%。使用12个样本，FineVerify使GPT-5-mini在BrowseComp-Plus上超越前沿模型GPT-5。除了准确率，FineVerify还生成可解释的验证轨迹，有助于审计基准测试错误，暗示了在检查智能搜索系统方面更广泛的应用。代码和数据可在https://github.com/XuZhao0/fineverify获取。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:36

论文页面 - FineVerify：通过细粒度自我验证扩展智能体搜索的测试时计算

来源：https://huggingface.co/papers/2606.00660

摘要

FineVerify 是一个用于智能体搜索的自我验证框架，通过分解为可检查的子问题并进行轨迹选择来提高准确性。

智能体搜索（https://huggingface.co/papers?q=Agentic%20search）要求语言模型智能体（https://huggingface.co/papers?q=language%20model%20agents）探索多个来源并回答复杂的信息查找问题。扩展测试时计算（https://huggingface.co/papers?q=test-time%20compute）是提升这些智能体的一种有前景的方法，但当前方法可能失败，因为正确答案往往稀疏且基于分数的选择（https://huggingface.co/papers?q=score-based%20selection）依赖于模型校准。我们提出 FineVerify，一种细粒度自我验证（https://huggingface.co/papers?q=fine-grained%20self-verification）框架，它将每个问题分解为可检查的子问题（https://huggingface.co/papers?q=checkable%20sub-questions），对每个采样候选（https://huggingface.co/papers?q=sampled%20candidates）的每个子问题进行验证，并选择具有最高聚合分数（https://huggingface.co/papers?q=aggregated%20score）的候选。这种逐项检查的结构将选择转化为更简单的局部判断，并在相同的明确标准下产生分数。在四个智能体搜索（https://huggingface.co/papers?q=agentic%20search）基准测试和两个模型上，FineVerify 始终优于标准扩展基线。仅需四次采样轨迹，它平均使 GPT-5-mini 提升 8.2 个准确率点，使 Gemini-3-flash 提升 5.6%。在 12 次采样下，FineVerify 使 GPT-5-mini 在 BrowseComp-Plus（https://huggingface.co/papers?q=BrowseComp-Plus）上超越了前沿模型 GPT-5。除了准确性，FineVerify 还生成可解释的验证轨迹，有助于审计基准测试错误，暗示了其在检查智能体搜索（https://huggingface.co/papers?q=agentic%20search）系统方面的更广泛应用。代码和数据可在 https://github.com/XuZhao0/fineverify 获取。

查看 arXiv 页面（https://arxiv.org/abs/2606.00660）查看 PDF（https://arxiv.org/pdf/2606.00660）GitHub2（https://github.com/XuZhao0/fineverify）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.00660）

引用此论文的模型0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.00660 以从此页面链接。

引用此论文的数据集0

无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.00660 以从此页面链接。

引用此论文的 Spaces0

无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.00660 以从此页面链接。

包含此论文的收藏0

无收藏包含此论文

将此论文添加到收藏（https://huggingface.co/new-collection）以从此页面链接。

FineVerify：通过细粒度自我验证扩展智能搜索的测试时计算

论文页面 - FineVerify：通过细粒度自我验证扩展智能体搜索的测试时计算

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏0

相似文章

AgentV-RL：用智能体验证器扩展奖励建模

VeriGate：用于GRPO的验证器门控步级监督

程序验证的智能体证明

大规模验证智能体开发（8分钟阅读）

三思而后行：面向具身智能体的验证器引导动作选择

提交意见反馈