勿检索,需导航:将企业知识蒸馏为可导航的智能体技能,用于QA和RAG

Hugging Face Daily Papers 论文

摘要

Corpus2Skill (C2S) 是一种基于智能体的RAG系统,它用可导航的技能层级树替代传统的向量/BM25检索,让大语言模型在查询时可以直接浏览企业知识,无需嵌入模型或检索索引。

检索增强生成(RAG)将LLM的回答建立在外部证据之上,但它将模型视为搜索结果的被动消费者:模型从未看到语料库的组织方式,也不知道自己尚未检索什么内容,这限制了它回溯或整合分散证据的能力。我们提出了Corpus2Skill,它将文档语料库离线蒸馏成一个层级化的技能目录,并让LLM智能体在服务运行时进行导航。编译流程会迭代地对文档进行聚类,在每个层级生成由LLM编写的摘要,并将结果物化为一个由可导航技能文件组成的树。在服务运行时,智能体会获得语料库的全局概览,通过逐步细化的摘要深入主题分支,并通过ID检索完整文档。由于层级结构是显式可见的,智能体能够推理应该去哪里查找,从无效果的路径回溯,并在不同分支之间整合证据。在WixQA(一个面向RAG的企业客户支持基准测试)上,Corpus2Skill在所有质量指标上都优于密集检索、RAPTOR和基于智能体的RAG基线。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:28

论文页面 - 不检索,而是导航:将企业知识提炼为可导航的Agent技能以用于QA和RAG

来源:https://huggingface.co/papers/2604.14572 我们构建并发布了Corpus2Skill (C2S),一个智能体式RAG系统,用可导航的技能层级替代传统的向量/BM25检索栈,LLM在查询时直接浏览该层级。在企业级QA基准测试上,C2S在服务时无需检索系统即可匹配或超越强检索基线。

C2S将任何语料库离线编译成Anthropic Skills树——每层有SKILL.md摘要,叶子节点有文档ID。查询时LLM遍历该树(通过代码执行ls/cat),并通过get_document工具拉取完整文档。无需向量数据库、BM25索引或嵌入模型在服务时。

相似文章

AgenticRAG:面向企业知识库的代理检索

arXiv cs.AI

本文介绍了 AgenticRAG,这是一个来自微软的框架,通过为大型语言模型(LLM)配备迭代搜索、文档导航和分析工具,增强了企业知识库的检索能力。它在多个基准测试中展示了相比标准 RAG 流水线在召回率和事实准确性方面的显著提升。

Skill-RAG:通过隐层状态探测和技能路由的故障感知检索增强

arXiv cs.CL

Skill-RAG 是一个故障感知的 RAG 框架,利用隐层状态探测和技能路由来诊断和纠正检索增强生成中的查询-证据不对齐问题。该方法检测检索失败并有选择性地应用目标技能(查询重写、问题分解、证据聚焦)以提高硬案例和分布外数据集的准确率。