CalVerT:使用校准验证器遥测增强智能体,改善知识密集型任务中的行动与学习
摘要
CalVerT 为 LLM 智能体引入了校准验证器遥测,提供置信度和基础分数,以减少过度检索和无依据的答案,提升知识密集型问答任务的性能。
查看缓存全文
缓存时间: 2026/06/23 05:41
论文页面 - CalVerT:利用校准验证器遥测增强智能体在知识密集型任务中的行动与学习
来源:https://huggingface.co/papers/2606.21777
摘要
校准验证器遥测通过提供置信度评分和接地验证,增强了 LLM 智能体在知识密集型问答中的表现,减少了过度检索和无支撑回答。
LLM 智能体(https://huggingface.co/papers?q=LLM%20agents)在知识密集型问答(https://huggingface.co/papers?q=knowledge%20intensive%20question%20answering)中执行检索(https://huggingface.co/papers?q=retrieval)和推理(https://huggingface.co/papers?q=reasoning)动作时,对当前答案是否不确定、无支撑或已经完成缺乏完整了解。这导致了两种失败模式:一是对自信但无支撑的回答做出承诺,损害准确性;二是在已有足够证据时过度检索,浪费计算资源。为了让智能体更全面地掌握其操作的状态空间,我们引入了校准验证器遥测(CalVerT),它通过额外的遥测数据增强智能体的状态:一个校准的自置信度评分(https://huggingface.co/papers?q=calibrated%20self-confidence%20score)和一个接地验证器评分(https://huggingface.co/papers?q=grounding%20verifier%20score)。我们证明,CalVerT 在无训练和基于训练的设置中都能提升智能体性能。在四个问答基准测试上,我们发现 CalVerT 通过在智能体过度依赖参数化知识时触发检索(https://huggingface.co/papers?q=retrieval)来提高 F1 值,同时在智能体已有足够上下文回答时减少冗余检索(https://huggingface.co/papers?q=retrieval)。我们展示了 CalVerT 可以在无需训练的情况下增强现有问答框架。此外,CalVerT 还能改进训练系统:只需用遥测数据增强智能体状态,我们观察到在强化学习(https://huggingface.co/papers?q=reinforcement%20learning)后,相比经过相同训练但没有 CalVerT 遥测的智能体,性能有所提升。
查看 arXiv 页面(https://arxiv.org/abs/2606.21777)查看 PDF(https://arxiv.org/pdf/2606.21777)GitHub0(https://github.com/ashwinn-v/CalVerT)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.21777)
在你的智能体中获取这篇论文:
hf papers read 2606.21777
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.21777 以从本页链接到它。
引用此论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.21777 以从本页链接到它。
引用此论文的 Spaces0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.21777 以从本页链接到它。
包含此论文的收藏集0
没有收藏集包含此论文
将这篇论文添加到收藏集(https://huggingface.co/new-collection)以从本页链接到它。
相似文章
LLM代理中的忠实不确定性:实践中校准与效用权衡
一位从业者讨论了LLM代理中的校准与效用权衡,分享了基于验证器的流水线经验,该流水线将幻觉工具调用减少了约60%,但引入了延迟成本并丢失了简单的正确答案。
三思而后行:面向具身智能体的验证器引导动作选择
提出VeGAS框架,一种针对基于MLLM的具身智能体的测试时框架,该框架采样多个候选动作,并利用生成式验证器选择最可靠的动作,在挑战性任务上相比CoT基线实现了高达36%的相对性能提升。
AgentV-RL:用智能体验证器扩展奖励建模
AgentV-RL引入了智能体验证器框架,通过具有工具增强的前向和后向智能体进行双向验证来增强奖励建模,相比最先进的ORM实现了25.2%的性能提升。该方法通过将多轮深思熟虑过程与强化学习相结合,解决了验证器在复杂推理任务中的误差传播和基础性不足等问题。
BitCal-TTS:面向量化推理模型的比特校准测试时扩展
本文介绍了 BitCal-TTS,这是一种运行时控制器,通过在测试时扩展期间校准置信度信号,提高了量化推理模型的准确性并减少了过早终止的问题。
@HowToAI_: Meta 发现了一种技术,使 LLM 的准确率提升 94%。这彻底颠覆了我们之前的认知……
Meta 的 Chain-of-Verification (CoVe) 提示技术通过四步自验证流程,将 LLM 的事实准确率提升 94%,无需微调即可减少幻觉。