CalVerT：使用校准验证器遥测增强智能体，改善知识密集型任务中的行动与学习

Hugging Face Daily Papers 2026/06/19 00:00 论文

摘要

CalVerT 为 LLM 智能体引入了校准验证器遥测，提供置信度和基础分数，以减少过度检索和无依据的答案，提升知识密集型问答任务的性能。

在知识密集型问答中，LLM 智能体在检索和推理时，并不完全了解当前答案是否不确定、无依据或已完成。这导致了两种失败模式：对自信但无依据的答案做出承诺，从而损害准确性；以及在已有充分证据时过度检索，造成计算浪费。为了让智能体更全面地了解其运行的状态空间，我们引入了校准验证器遥测（CalVerT），它通过额外的遥测数据增强智能体的状态：一个校准的自置信度分数和一个基础验证器分数。我们证明，CalVerT 在无训练和有训练的场景中都能提升智能体性能。在四个问答基准上，我们发现 CalVerT 通过在智能体过度依赖参数知识时触发检索来提升 F1，同时在智能体已有足够上下文回答问题时减少冗余检索。我们还表明，CalVerT 无需训练即可增强现有的问答框架。此外，CalVerT 也能改进训练后的系统：与经过相同训练但未使用 CalVerT 遥测的智能体相比，仅通过将遥测数据添加到智能体状态中，我们在强化学习后观察到了性能提升。

查看原文

查看缓存全文

缓存时间: 2026/06/23 05:41

论文页面 - CalVerT：利用校准验证器遥测增强智能体在知识密集型任务中的行动与学习

来源：https://huggingface.co/papers/2606.21777

摘要

校准验证器遥测通过提供置信度评分和接地验证，增强了 LLM 智能体在知识密集型问答中的表现，减少了过度检索和无支撑回答。

LLM 智能体（https://huggingface.co/papers?q=LLM%20agents）在知识密集型问答（https://huggingface.co/papers?q=knowledge%20intensive%20question%20answering）中执行检索（https://huggingface.co/papers?q=retrieval）和推理（https://huggingface.co/papers?q=reasoning）动作时，对当前答案是否不确定、无支撑或已经完成缺乏完整了解。这导致了两种失败模式：一是对自信但无支撑的回答做出承诺，损害准确性；二是在已有足够证据时过度检索，浪费计算资源。为了让智能体更全面地掌握其操作的状态空间，我们引入了校准验证器遥测（CalVerT），它通过额外的遥测数据增强智能体的状态：一个校准的自置信度评分（https://huggingface.co/papers?q=calibrated%20self-confidence%20score）和一个接地验证器评分（https://huggingface.co/papers?q=grounding%20verifier%20score）。我们证明，CalVerT 在无训练和基于训练的设置中都能提升智能体性能。在四个问答基准测试上，我们发现 CalVerT 通过在智能体过度依赖参数化知识时触发检索（https://huggingface.co/papers?q=retrieval）来提高 F1 值，同时在智能体已有足够上下文回答时减少冗余检索（https://huggingface.co/papers?q=retrieval）。我们展示了 CalVerT 可以在无需训练的情况下增强现有问答框架。此外，CalVerT 还能改进训练系统：只需用遥测数据增强智能体状态，我们观察到在强化学习（https://huggingface.co/papers?q=reinforcement%20learning）后，相比经过相同训练但没有 CalVerT 遥测的智能体，性能有所提升。

查看 arXiv 页面（https://arxiv.org/abs/2606.21777）查看 PDF（https://arxiv.org/pdf/2606.21777）GitHub0（https://github.com/ashwinn-v/CalVerT）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.21777）

在你的智能体中获取这篇论文：

hf papers read 2606.21777

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.21777 以从本页链接到它。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.21777 以从本页链接到它。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.21777 以从本页链接到它。

包含此论文的收藏集0

没有收藏集包含此论文

将这篇论文添加到收藏集（https://huggingface.co/new-collection）以从本页链接到它。

CalVerT：使用校准验证器遥测增强智能体，改善知识密集型任务中的行动与学习

论文页面 - CalVerT：利用校准验证器遥测增强智能体在知识密集型任务中的行动与学习

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

LLM代理中的忠实不确定性：实践中校准与效用权衡

三思而后行：面向具身智能体的验证器引导动作选择

AgentV-RL：用智能体验证器扩展奖励建模

BitCal-TTS：面向量化推理模型的比特校准测试时扩展

@HowToAI_: Meta 发现了一种技术，使 LLM 的准确率提升 94%。这彻底颠覆了我们之前的认知……

提交意见反馈