DeepRefine:基于强化学习的智能体编译知识精炼
摘要
DeepRefine 是一篇研究论文,介绍了一种基于大语言模型的推理模型,该模型利用强化学习和多轮交互来精炼智能体编译的知识库,从而提高下游任务的性能。
查看缓存全文
缓存时间: 2026/05/13 00:20
论文页面 - DeepRefine: 通过强化学习实现智能体编译的知识精炼
来源: https://huggingface.co/papers/2605.10488
摘要
DeepRefine 是一种基于大型语言模型(LLM)的推理模型,它通过多轮交互和针对性的更新来精炼智能体编译的知识库,从而提升下游任务的性能。
智能体编译的知识库(https://huggingface.co/papers?q=Agent-compiled%20knowledge%20bases)在开放式、知识密集型下游任务中为大型语言模型(LLM)智能体提供持久性的外部知识。然而,其质量系统性地受到不完整、不正确和冗余问题的限制,表现为缺失证据或跨文档链接、低置信度或不精确的声明,以及歧义或共指消解问题。这些缺陷在迭代使用中会不断累积,降低检索保真度和下游任务性能。我们提出了 DeepRefine,这是一种通用的基于 LLM 的推理模型,用于智能体编译的知识精炼(https://huggingface.co/papers?q=knowledge%20refinement)。它利用用户查询提升任何预构建知识库的质量,使其更适用于下游任务。DeepRefine 与知识库进行多轮交互(https://huggingface.co/papers?q=multi-turn%20interactions),对交互历史进行溯因诊断(https://huggingface.co/papers?q=abductive%20diagnosis),定位可能的缺陷,并执行针对性的精炼动作以实现知识库的增量更新。为了在无黄金参考标准的情况下优化 DeepRefine 的精炼策略,我们引入了增益超越草稿(Gain-Beyond-Draft, GBD)奖励,并通过强化学习(https://huggingface.co/papers?q=reinforcement%20learning)对推理过程进行端到端训练。大量实验表明,与强大的基线模型相比,该方法在下游任务上取得了持续的性能提升。
查看 arXiv 页面 (https://arxiv.org/abs/2605.10488) 查看 PDF (https://arxiv.org/pdf/2605.10488) GitHub2 (https://github.com/HKUST-KnowComp/DeepRefine) 添加到收藏夹 (https://huggingface.co/login?next=%2Fpapers%2F2605.10488)
引用此论文的模型 0
没有模型链接此论文
在模型的 README.md 中引用 arxiv.org/abs/2605.10488 即可从此页面链接它。
引用此论文的数据集 0
没有数据集链接此论文
在数据集的 README.md 中引用 arxiv.org/abs/2605.10488 即可从此页面链接它。
引用此论文的 Spaces 0
没有 Space 链接此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2605.10488 即可从此页面链接它。
包含此论文的集合 1
相似文章
学习细化隐藏状态以实现可靠的LLM推理
提出了ReLAR,一种强化引导的潜在细化框架,在解码前迭代更新LLM中的隐藏表示,与思维链方法相比,提高了推理可靠性和效率。
超越推理:强化学习释放大型语言模型中的参数化知识
本文探讨了强化学习能否在推理任务之外,进一步提升大型语言模型(LLM)对参数化知识的直接回忆能力。研究表明,通过二元奖励进行强化学习,可以通过重新分配概率质量来激活潜在知识,而非习得新事实,从而在事实性问答基准测试中取得显著提升。
面向LLM智能体训练的回顾性进度感知自我精炼
本文介绍了RePro,一个通过“先执行再反思”的展开范式训练LLM智能体自我生成进度信号的框架,在WebShop、ALFWorld和Sokoban基准测试上实现了高达12%的绝对成功率提升。
MemRefine:基于LLM的长程智能体记忆压缩框架
MemRefine是一个基于LLM的框架,用于在固定存储预算下压缩长程智能体记忆,利用相似性进行候选配对,并由LLM裁判基于事实内容决定删除或合并,在基准测试中优于基于规则的基线。
从受训者到训练者:LLM为多智能体推理强化学习设计的训练环境
本文介绍了LLM-as-Environment-Engineer框架,该框架使LLM能够为多智能体推理任务中的强化学习设计自己的训练环境,实现自我改进训练,其性能超越更大的专有模型。