Adaptive Chunking:为RAG优化分块方法选择

Papers with Code Trending 论文

摘要

介绍Adaptive Chunking,一个利用五项文档内在指标为RAG选择最佳分块策略的框架,将答案正确率从62-64%提升至72%,并将问题解决率提高超过30%。

检索增强生成(RAG)的效果高度依赖于文档的分块方式,即将文档分割成更小的单元以供索引和检索。然而,常用的“一刀切”方法往往无法捕捉到不同文本的细微结构和语义。尽管分块发挥着核心作用,但缺乏专门的评估框架,使得难以独立于下游性能来评估和比较各种策略。我们挑战这一范式,引入Adaptive Chunking,这是一个基于五项新颖的内在文档度量指标为每个文档选择最合适分块策略的框架:参考文献完整性(RC)、块内凝聚力(ICC)、文档上下文连贯性(DCC)、块完整性(BI)和大小合规性(SC),这些指标直接评估关键维度上的分块质量。为支持该框架,我们还引入了两个新的分块器:一个LLM正则表达式分割器和一个先分割后合并的递归分割器,并辅以针对性的后处理技术。在一个涵盖法律、技术和社会科学领域的多样化语料库上,我们的度量指导自适应方法显著提升了下游RAG性能。在不改变模型或提示的情况下,我们的框架提高了RAG效果,将答案正确率提升至72%(从62-64%),并将成功回答的问题数量增加了超过30%(65 vs 49)。这些结果表明,在互补的内在度量指标套件的指导下,自适应、文档感知的分块为构建更稳健的RAG系统提供了一条实用且有效的途径。代码可在 https://github.com/ekimetrics/adaptive-chunking 获取。
查看原文
查看缓存全文

缓存时间: 2026/05/20 02:23

论文页面 - 自适应分块:为RAG优化分块方法选择

来源:https://huggingface.co/papers/2603.25333

摘要

自适应分块框架利用文档内在指标选择最优的检索增强生成分割策略,显著提升了答案正确率和问题解答率。

检索增强生成(Retrieval-Augmented Generation,RAG)(https://huggingface.co/papers?q=Retrieval-Augmented%20Generation)的效果高度依赖于文档的分块方式,即如何将文档切分为更小的单元以供索引和检索。然而,常用的“一刀切“方法往往无法捕捉不同文本的细微结构和语义。尽管分块(chunking)(https://huggingface.co/papers?q=chunking)至关重要,但缺乏专门的评估框架,使得独立于下游性能来评估和比较不同策略变得困难。我们通过引入自适应分块(Adaptive Chunking)(https://huggingface.co/papers?q=Chunking)框架挑战了这一范式,该框架基于五项新颖的、基于文档的内在指标(document-based metrics)(https://huggingface.co/papers?q=document-based%20metrics)为每个文档选择最合适的分块(chunking)(https://huggingface.co/papers?q=chunking)策略。这些指标包括:引用完整性(References Completeness,RC)(https://huggingface.co/papers?q=References%20Completeness)、块内凝聚度(Intrachunk Cohesion,ICC)(https://huggingface.co/papers?q=Intrachunk%20Cohesion)、文档上下文连贯性(Document Contextual Coherence,DCC)(https://huggingface.co/papers?q=Document%20Contextual%20Coherence)、块完整性(Block Integrity,BI)(https://huggingface.co/papers?q=Block%20Integrity)和大小合规性(Size Compliance,SC)(https://huggingface.co/papers?q=Size%20Compliance),它们直接评估分块质量在各个关键维度上的表现。为支撑该框架,我们还引入了两种新的分块器:一种基于LLM的正则表达式分割器(LLM-regex splitter)(https://huggingface.co/papers?q=LLM-regex%20splitter)和一种先分割后合并的递归分割器(split-then-merge recursive splitter)(https://huggingface.co/papers?q=split-then-merge%20recursive%20splitter),并辅以有针对性的后处理技术。在涵盖法律、技术和社会科学领域的多样化语料库上,我们的指标驱动自适应方法显著提升了下游RAG性能。在不改变模型或提示的情况下,该框架将RAG的答案正确率提升至72%(从62-64%),成功回答的问题数量增加了超过30%(65个对比49个)。这些结果表明,由互补的内在指标(intrinsic metrics)(https://huggingface.co/papers?q=intrinsic%20metrics)引导的自适应、文档感知的分块(chunking)(https://huggingface.co/papers?q=chunking)方法,为实现更稳健的RAG系统提供了一条实用且有效的路径。代码已开源在 https://github.com/ekimetrics/adaptive-chunking(https://huggingface.co/papers?q=chunking)。

查看arXiv页面(https://arxiv.org/abs/2603.25333) | 查看PDF(https://arxiv.org/pdf/2603.25333) | GitHub(36)(https://github.com/ekimetrics/adaptive-chunking) | 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2603.25333)

引用该论文的模型(0)

暂无模型关联此论文

请在一个模型README.md中引用 arxiv.org/abs/2603.25333 以从本页面链接。

引用该论文的数据集(0)

暂无数据集关联此论文

请在一个数据集README.md中引用 arxiv.org/abs/2603.25333 以从本页面链接。

引用该论文的Spaces(0)

暂无Space关联此论文

请在一个Space README.md中引用 arxiv.org/abs/2603.25333 以从本页面链接。

包含该论文的收藏集(0)

暂无收藏集包含此论文

请将此论文添加到一个收藏集(https://huggingface.co/new-collection)以从本页面链接。

相似文章

CHOP: 多文档RAG的分块式上下文保留框架

arXiv cs.CL

CHOP是一个通过使用上下文感知元数据和基于大语言模型的分块相关性评估来改进多文档检索RAG系统的框架,可以减少语义冲突和幻觉现象。该方法通过智能分块和上下文保留策略实现了90.77%的Top-1命中率。