快速且忠实:长文档检索增强生成系统的实时验证
摘要
本文提出了一种用于检索增强生成的实时验证系统,可处理长达32K token的文档,通过自适应推理策略在延迟与验证覆盖之间取得平衡。其为构建可靠的RAG系统提供了实用指导。
查看缓存全文
缓存时间: 2026/07/01 21:40
论文页面 - 快速且忠实:面向长文档检索增强生成系统的实时验证
来源:https://huggingface.co/papers/2603.23508
摘要
一种面向检索增强生成的实时验证系统,能够处理长文档并在延迟约束与全面答案验证之间取得平衡。
检索增强生成(检索增强生成)正越来越多地部署于企业搜索与以文档为中心的助手中,这些场景要求回复必须基于冗长且复杂的源材料。在实践中,验证生成的答案是否忠实地反映所检索的文档十分困难:大型语言模型能够检查长上下文,但对于交互式服务来说速度太慢且成本过高;而轻量级分类器则受限于严格的上下文窗口,经常遗漏截断段落之外的证据。我们提出了一种集成于生产级RAG流程中的实时验证组件设计,该组件能够在延迟约束下实现全文档接地。系统可处理长达32K词元的文档,并采用自适应推理策略来平衡不同工作负载下的响应时间与验证覆盖率。我们描述了部署该验证器所涉及的架构决策、操作权衡以及评估方法,并表明与截断验证相比,全上下文验证能显著提升对无根据响应的检测能力。我们的经验揭示了何时需要长上下文验证、为何在真实文档中基于分块的检查常常失败,以及延迟预算如何塑造模型设计。这些发现为构建可靠大规模检索增强应用的实践者提供了实用指导。(模型、基准测试及代码:https://huggingface.co/llm-semantic-router)
查看 arXiv 页面 (https://arxiv.org/abs/2603.23508) 查看 PDF (https://arxiv.org/pdf/2603.23508) GitHub 4.71k auto (https://github.com/vllm-project/semantic-router) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2603.23508)
在您的智能体中获取此论文:
hf papers read 2603.23508
没有安装最新的 CLI? curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有模型与此论文关联
请在模型 README.md 中引用 arxiv.org/abs/2603.23508,以便在此页面建立链接。
引用此论文的数据集 0
没有数据集与此论文关联
请在数据集 README.md 中引用 arxiv.org/abs/2603.23508,以便在此页面建立链接。
引用此论文的 Space 0
没有 Space 与此论文关联
请在 Space README.md 中引用 arxiv.org/abs/2603.23508,以便在此页面建立链接。
包含此论文的收藏集 0
没有收藏集包含此论文
请将本论文添加到收藏集,以便在此页面建立链接。
相似文章
为什么检索增强生成会失败:图视角
本文探讨了检索增强生成(RAG)系统即使在获取到正确证据的情况下仍然失败的原因。通过电路追踪和归因图,作者发现正确的预测展现出更深的推理路径和更分散的证据流,而失败则表现为浅层、碎片化的模式。他们提出了一个基于图的错误检测框架和有针对性的干预措施,以提高RAG的可靠性。
面向检索增强生成输出的忠实性感知不确定性量化
本论文介绍了FRANQ方法,用于检测检索增强生成(RAG)系统中的幻觉问题。该方法应用不同的不确定性量化技术来区分事实性和对检索上下文的忠实性。作者构建了一个同时标注事实性和忠实性的新数据集,并证明FRANQ在多个数据集和大语言模型上的事实错误检测性能优于现有方法。
文本-图协同:用于 RAG 的双向验证与补全框架
本文介绍了 TGS-RAG,这是一个双向验证与补全框架,通过协同基于文本和基于图的检索增强生成(RAG),提高了多跳推理的准确性。
LFRAG:面向布局的多模态文档理解细粒度检索增强生成
LFRAG提出了一种面向布局的细粒度检索增强生成框架,该框架在多模态文档中从页面级检索转向块级检索,在新提出的LFDocQA基准上实现了最先进的性能,并将令牌数量减少了73%。
GRACE-RAG:规范证据合成的受控检索架构,支持在封闭领域机构环境中轻量化部署
本文介绍了 GRACE-RAG,这是一种检索受控、图增强的 RAG 架构,它将结构推理从生成过程外化到结构化的检索层,从而能够在封闭领域的机构环境中实现轻量化部署。实验表明,在中规模模型上质量提升高达 20%,同时减少了计算和延迟开销。