DeepRefine:基于强化学习的智能体编译知识精炼

Hugging Face Daily Papers 论文

摘要

DeepRefine 是一篇研究论文,介绍了一种基于大语言模型的推理模型,该模型利用强化学习和多轮交互来精炼智能体编译的知识库,从而提高下游任务的性能。

智能体编译的知识库为大型语言模型(LLM)智能体在开放式、知识密集型的下游任务中提供了持久的外部知识。然而,其质量受到不完整性、错误性和冗余性的系统性限制,具体表现为证据缺失或跨文档链接缺失、低置信度或不准确的声明,以及歧义或共指消解问题。这些缺陷在迭代使用中会相互叠加,降低检索的保真度和下游任务的性能。我们提出了 DeepRefine,这是一种通用的基于 LLM 的推理模型,用于智能体编译知识的精炼。它通过用户查询改善任何预构建知识库的质量,使其更适合下游任务。DeepRefine 与知识库进行多轮交互,并对交互历史进行溯因诊断,以定位可能的缺陷,并执行有针对性的精炼操作以进行增量知识库更新。为了在没有标准参考(gold references)的情况下优化 DeepRefine 的精炼策略,我们引入了增益超越草稿(Gain-Beyond-Draft, GBD)奖励,并通过强化学习对推理过程进行端到端训练。大量实验表明,与强大的基线相比,DeepRefine 在下游任务上取得了稳定的性能提升。
查看原文
查看缓存全文

缓存时间: 2026/05/13 00:20

论文页面 - DeepRefine: 通过强化学习实现智能体编译的知识精炼

来源: https://huggingface.co/papers/2605.10488

摘要

DeepRefine 是一种基于大型语言模型(LLM)的推理模型,它通过多轮交互和针对性的更新来精炼智能体编译的知识库,从而提升下游任务的性能。

智能体编译的知识库(https://huggingface.co/papers?q=Agent-compiled%20knowledge%20bases)在开放式、知识密集型下游任务中为大型语言模型(LLM)智能体提供持久性的外部知识。然而,其质量系统性地受到不完整、不正确和冗余问题的限制,表现为缺失证据或跨文档链接、低置信度或不精确的声明,以及歧义或共指消解问题。这些缺陷在迭代使用中会不断累积,降低检索保真度和下游任务性能。我们提出了 DeepRefine,这是一种通用的基于 LLM 的推理模型,用于智能体编译的知识精炼(https://huggingface.co/papers?q=knowledge%20refinement)。它利用用户查询提升任何预构建知识库的质量,使其更适用于下游任务。DeepRefine 与知识库进行多轮交互(https://huggingface.co/papers?q=multi-turn%20interactions),对交互历史进行溯因诊断(https://huggingface.co/papers?q=abductive%20diagnosis),定位可能的缺陷,并执行针对性的精炼动作以实现知识库的增量更新。为了在无黄金参考标准的情况下优化 DeepRefine 的精炼策略,我们引入了增益超越草稿(Gain-Beyond-Draft, GBD)奖励,并通过强化学习(https://huggingface.co/papers?q=reinforcement%20learning)对推理过程进行端到端训练。大量实验表明,与强大的基线模型相比,该方法在下游任务上取得了持续的性能提升。

查看 arXiv 页面 (https://arxiv.org/abs/2605.10488) 查看 PDF (https://arxiv.org/pdf/2605.10488) GitHub2 (https://github.com/HKUST-KnowComp/DeepRefine) 添加到收藏夹 (https://huggingface.co/login?next=%2Fpapers%2F2605.10488)

引用此论文的模型 0

没有模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2605.10488 即可从此页面链接它。

引用此论文的数据集 0

没有数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.10488 即可从此页面链接它。

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.10488 即可从此页面链接它。

包含此论文的集合 1

相似文章

超越推理:强化学习释放大型语言模型中的参数化知识

arXiv cs.CL

本文探讨了强化学习能否在推理任务之外,进一步提升大型语言模型(LLM)对参数化知识的直接回忆能力。研究表明,通过二元奖励进行强化学习,可以通过重新分配概率质量来激活潜在知识,而非习得新事实,从而在事实性问答基准测试中取得显著提升。

通过结构化元认知在通用智能体中实现深度推理

arXiv cs.CL

本文介绍了深度推理(Deep Reasoning),这是一种在推理阶段利用结构化元推理为通用智能体构建特定任务脚手架的方法。提出的智能体 Dolores 通过将认知分配到低负载的推理线程中,减少了幻觉并提升了在多个基准测试上的表现,优于现有方法。

RubricEM:基于量规引导策略分解,超越可验证奖励的元强化学习

Hugging Face Daily Papers

本文介绍了 RubricEM,这是一个强化学习框架,它利用量规引导的策略分解和基于反思的元策略进化,为长篇任务训练深度研究智能体。所得到的 RubricEM-8B 模型通过利用阶段感知规划和更密集的语义反馈,在长篇研究基准测试中表现出强劲的性能。