CalVerT:使用校准验证器遥测增强智能体,改善知识密集型任务中的行动与学习

Hugging Face Daily Papers 论文

摘要

CalVerT 为 LLM 智能体引入了校准验证器遥测,提供置信度和基础分数,以减少过度检索和无依据的答案,提升知识密集型问答任务的性能。

在知识密集型问答中,LLM 智能体在检索和推理时,并不完全了解当前答案是否不确定、无依据或已完成。这导致了两种失败模式:对自信但无依据的答案做出承诺,从而损害准确性;以及在已有充分证据时过度检索,造成计算浪费。为了让智能体更全面地了解其运行的状态空间,我们引入了校准验证器遥测(CalVerT),它通过额外的遥测数据增强智能体的状态:一个校准的自置信度分数和一个基础验证器分数。我们证明,CalVerT 在无训练和有训练的场景中都能提升智能体性能。在四个问答基准上,我们发现 CalVerT 通过在智能体过度依赖参数知识时触发检索来提升 F1,同时在智能体已有足够上下文回答问题时减少冗余检索。我们还表明,CalVerT 无需训练即可增强现有的问答框架。此外,CalVerT 也能改进训练后的系统:与经过相同训练但未使用 CalVerT 遥测的智能体相比,仅通过将遥测数据添加到智能体状态中,我们在强化学习后观察到了性能提升。
查看原文
查看缓存全文

缓存时间: 2026/06/23 05:41

论文页面 - CalVerT:利用校准验证器遥测增强智能体在知识密集型任务中的行动与学习

来源:https://huggingface.co/papers/2606.21777

摘要

校准验证器遥测通过提供置信度评分和接地验证,增强了 LLM 智能体在知识密集型问答中的表现,减少了过度检索和无支撑回答。

LLM 智能体(https://huggingface.co/papers?q=LLM%20agents)在知识密集型问答(https://huggingface.co/papers?q=knowledge%20intensive%20question%20answering)中执行检索(https://huggingface.co/papers?q=retrieval)和推理(https://huggingface.co/papers?q=reasoning)动作时,对当前答案是否不确定、无支撑或已经完成缺乏完整了解。这导致了两种失败模式:一是对自信但无支撑的回答做出承诺,损害准确性;二是在已有足够证据时过度检索,浪费计算资源。为了让智能体更全面地掌握其操作的状态空间,我们引入了校准验证器遥测(CalVerT),它通过额外的遥测数据增强智能体的状态:一个校准的自置信度评分(https://huggingface.co/papers?q=calibrated%20self-confidence%20score)和一个接地验证器评分(https://huggingface.co/papers?q=grounding%20verifier%20score)。我们证明,CalVerT 在无训练和基于训练的设置中都能提升智能体性能。在四个问答基准测试上,我们发现 CalVerT 通过在智能体过度依赖参数化知识时触发检索(https://huggingface.co/papers?q=retrieval)来提高 F1 值,同时在智能体已有足够上下文回答时减少冗余检索(https://huggingface.co/papers?q=retrieval)。我们展示了 CalVerT 可以在无需训练的情况下增强现有问答框架。此外,CalVerT 还能改进训练系统:只需用遥测数据增强智能体状态,我们观察到在强化学习(https://huggingface.co/papers?q=reinforcement%20learning)后,相比经过相同训练但没有 CalVerT 遥测的智能体,性能有所提升。

查看 arXiv 页面(https://arxiv.org/abs/2606.21777)查看 PDF(https://arxiv.org/pdf/2606.21777)GitHub0(https://github.com/ashwinn-v/CalVerT)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.21777)

在你的智能体中获取这篇论文:

hf papers read 2606.21777

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.21777 以从本页链接到它。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.21777 以从本页链接到它。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.21777 以从本页链接到它。

包含此论文的收藏集0

没有收藏集包含此论文

将这篇论文添加到收藏集(https://huggingface.co/new-collection)以从本页链接到它。

相似文章

AgentV-RL:用智能体验证器扩展奖励建模

arXiv cs.CL

AgentV-RL引入了智能体验证器框架,通过具有工具增强的前向和后向智能体进行双向验证来增强奖励建模,相比最先进的ORM实现了25.2%的性能提升。该方法通过将多轮深思熟虑过程与强化学习相结合,解决了验证器在复杂推理任务中的误差传播和基础性不足等问题。