快速且忠实:长文档检索增强生成系统的实时验证

Papers with Code Trending 论文

摘要

本文提出了一种用于检索增强生成的实时验证系统,可处理长达32K token的文档,通过自适应推理策略在延迟与验证覆盖之间取得平衡。其为构建可靠的RAG系统提供了实用指导。

检索增强生成(RAG)正越来越多地应用于企业搜索和以文档为中心的助手场景,在这些场景中,回答必须基于长篇且复杂的源材料。在实践中,验证生成的答案是否忠实反映检索到的文档颇具挑战:大语言模型能够检查长上下文,但对交互式服务来说速度慢且成本高;而轻量级分类器在严格的上下文限制下运行,常常遗漏截断段落之外的证据。我们设计了一个实时验证组件,集成到生产级RAG流水线中,在延迟约束下实现全文档的 grounding。该系统可处理长达32K token的文档,并采用自适应推理策略在不同工作负载下平衡响应时间和验证覆盖范围。我们描述了部署验证器所涉及的架构决策、操作权衡和评估方法,并表明相比截断验证,全上下文验证显著提升了对无依据回答的检测能力。我们的经验揭示了何时需要长上下文验证、为何基于分块的检查在实际文档中常失效,以及延迟预算如何影响模型设计。这些发现为构建可靠的大规模检索增强应用提供了实用指导。(模型、基准测试和代码:https://huggingface.co/llm-semantic-router)
查看原文
查看缓存全文

缓存时间: 2026/07/01 21:40

论文页面 - 快速且忠实:面向长文档检索增强生成系统的实时验证

来源:https://huggingface.co/papers/2603.23508

摘要

一种面向检索增强生成的实时验证系统,能够处理长文档并在延迟约束与全面答案验证之间取得平衡。

检索增强生成(检索增强生成)正越来越多地部署于企业搜索与以文档为中心的助手中,这些场景要求回复必须基于冗长且复杂的源材料。在实践中,验证生成的答案是否忠实地反映所检索的文档十分困难:大型语言模型能够检查长上下文,但对于交互式服务来说速度太慢且成本过高;而轻量级分类器则受限于严格的上下文窗口,经常遗漏截断段落之外的证据。我们提出了一种集成于生产级RAG流程中的实时验证组件设计,该组件能够在延迟约束下实现全文档接地。系统可处理长达32K词元的文档,并采用自适应推理策略来平衡不同工作负载下的响应时间与验证覆盖率。我们描述了部署该验证器所涉及的架构决策、操作权衡以及评估方法,并表明与截断验证相比,全上下文验证能显著提升对无根据响应的检测能力。我们的经验揭示了何时需要长上下文验证、为何在真实文档中基于分块的检查常常失败,以及延迟预算如何塑造模型设计。这些发现为构建可靠大规模检索增强应用的实践者提供了实用指导。(模型、基准测试及代码:https://huggingface.co/llm-semantic-router)

查看 arXiv 页面 (https://arxiv.org/abs/2603.23508) 查看 PDF (https://arxiv.org/pdf/2603.23508) GitHub 4.71k auto (https://github.com/vllm-project/semantic-router) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2603.23508)

在您的智能体中获取此论文:

hf papers read 2603.23508

没有安装最新的 CLI? curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型与此论文关联

请在模型 README.md 中引用 arxiv.org/abs/2603.23508,以便在此页面建立链接。

引用此论文的数据集 0

没有数据集与此论文关联

请在数据集 README.md 中引用 arxiv.org/abs/2603.23508,以便在此页面建立链接。

引用此论文的 Space 0

没有 Space 与此论文关联

请在 Space README.md 中引用 arxiv.org/abs/2603.23508,以便在此页面建立链接。

包含此论文的收藏集 0

没有收藏集包含此论文

请将本论文添加到收藏集,以便在此页面建立链接。

相似文章

为什么检索增强生成会失败:图视角

arXiv cs.CL

本文探讨了检索增强生成(RAG)系统即使在获取到正确证据的情况下仍然失败的原因。通过电路追踪和归因图,作者发现正确的预测展现出更深的推理路径和更分散的证据流,而失败则表现为浅层、碎片化的模式。他们提出了一个基于图的错误检测框架和有针对性的干预措施,以提高RAG的可靠性。

面向检索增强生成输出的忠实性感知不确定性量化

arXiv cs.CL

本论文介绍了FRANQ方法,用于检测检索增强生成(RAG)系统中的幻觉问题。该方法应用不同的不确定性量化技术来区分事实性和对检索上下文的忠实性。作者构建了一个同时标注事实性和忠实性的新数据集,并证明FRANQ在多个数据集和大语言模型上的事实错误检测性能优于现有方法。