DeepRefine：基于强化学习的智能体编译知识精炼

Hugging Face Daily Papers 2026/05/11 00:00 论文

摘要

DeepRefine 是一篇研究论文，介绍了一种基于大语言模型的推理模型，该模型利用强化学习和多轮交互来精炼智能体编译的知识库，从而提高下游任务的性能。

智能体编译的知识库为大型语言模型（LLM）智能体在开放式、知识密集型的下游任务中提供了持久的外部知识。然而，其质量受到不完整性、错误性和冗余性的系统性限制，具体表现为证据缺失或跨文档链接缺失、低置信度或不准确的声明，以及歧义或共指消解问题。这些缺陷在迭代使用中会相互叠加，降低检索的保真度和下游任务的性能。我们提出了 DeepRefine，这是一种通用的基于 LLM 的推理模型，用于智能体编译知识的精炼。它通过用户查询改善任何预构建知识库的质量，使其更适合下游任务。DeepRefine 与知识库进行多轮交互，并对交互历史进行溯因诊断，以定位可能的缺陷，并执行有针对性的精炼操作以进行增量知识库更新。为了在没有标准参考（gold references）的情况下优化 DeepRefine 的精炼策略，我们引入了增益超越草稿（Gain-Beyond-Draft, GBD）奖励，并通过强化学习对推理过程进行端到端训练。大量实验表明，与强大的基线相比，DeepRefine 在下游任务上取得了稳定的性能提升。

查看原文

查看缓存全文

缓存时间: 2026/05/13 00:20

论文页面 - DeepRefine: 通过强化学习实现智能体编译的知识精炼

来源: https://huggingface.co/papers/2605.10488

摘要

DeepRefine 是一种基于大型语言模型（LLM）的推理模型，它通过多轮交互和针对性的更新来精炼智能体编译的知识库，从而提升下游任务的性能。

智能体编译的知识库（https://huggingface.co/papers?q=Agent-compiled%20knowledge%20bases）在开放式、知识密集型下游任务中为大型语言模型（LLM）智能体提供持久性的外部知识。然而，其质量系统性地受到不完整、不正确和冗余问题的限制，表现为缺失证据或跨文档链接、低置信度或不精确的声明，以及歧义或共指消解问题。这些缺陷在迭代使用中会不断累积，降低检索保真度和下游任务性能。我们提出了 DeepRefine，这是一种通用的基于 LLM 的推理模型，用于智能体编译的知识精炼（https://huggingface.co/papers?q=knowledge%20refinement）。它利用用户查询提升任何预构建知识库的质量，使其更适用于下游任务。DeepRefine 与知识库进行多轮交互（https://huggingface.co/papers?q=multi-turn%20interactions），对交互历史进行溯因诊断（https://huggingface.co/papers?q=abductive%20diagnosis），定位可能的缺陷，并执行针对性的精炼动作以实现知识库的增量更新。为了在无黄金参考标准的情况下优化 DeepRefine 的精炼策略，我们引入了增益超越草稿（Gain-Beyond-Draft, GBD）奖励，并通过强化学习（https://huggingface.co/papers?q=reinforcement%20learning）对推理过程进行端到端训练。大量实验表明，与强大的基线模型相比，该方法在下游任务上取得了持续的性能提升。

查看 arXiv 页面 (https://arxiv.org/abs/2605.10488) 查看 PDF (https://arxiv.org/pdf/2605.10488) GitHub2 (https://github.com/HKUST-KnowComp/DeepRefine) 添加到收藏夹 (https://huggingface.co/login?next=%2Fpapers%2F2605.10488)

引用此论文的模型 0

没有模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2605.10488 即可从此页面链接它。

引用此论文的数据集 0

没有数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.10488 即可从此页面链接它。

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.10488 即可从此页面链接它。

DeepRefine：基于强化学习的智能体编译知识精炼

论文页面 - DeepRefine: 通过强化学习实现智能体编译的知识精炼

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的集合 1

相似文章

学习细化隐藏状态以实现可靠的LLM推理

超越推理：强化学习释放大型语言模型中的参数化知识

面向LLM智能体训练的回顾性进度感知自我精炼

MemRefine：基于LLM的长程智能体记忆压缩框架

从受训者到训练者：LLM为多智能体推理强化学习设计的训练环境

提交意见反馈