Adaptive Chunking:为RAG优化分块方法选择
摘要
介绍Adaptive Chunking,一个利用五项文档内在指标为RAG选择最佳分块策略的框架,将答案正确率从62-64%提升至72%,并将问题解决率提高超过30%。
查看缓存全文
缓存时间: 2026/05/20 02:23
论文页面 - 自适应分块:为RAG优化分块方法选择
来源:https://huggingface.co/papers/2603.25333
摘要
自适应分块框架利用文档内在指标选择最优的检索增强生成分割策略,显著提升了答案正确率和问题解答率。
检索增强生成(Retrieval-Augmented Generation,RAG)(https://huggingface.co/papers?q=Retrieval-Augmented%20Generation)的效果高度依赖于文档的分块方式,即如何将文档切分为更小的单元以供索引和检索。然而,常用的“一刀切“方法往往无法捕捉不同文本的细微结构和语义。尽管分块(chunking)(https://huggingface.co/papers?q=chunking)至关重要,但缺乏专门的评估框架,使得独立于下游性能来评估和比较不同策略变得困难。我们通过引入自适应分块(Adaptive Chunking)(https://huggingface.co/papers?q=Chunking)框架挑战了这一范式,该框架基于五项新颖的、基于文档的内在指标(document-based metrics)(https://huggingface.co/papers?q=document-based%20metrics)为每个文档选择最合适的分块(chunking)(https://huggingface.co/papers?q=chunking)策略。这些指标包括:引用完整性(References Completeness,RC)(https://huggingface.co/papers?q=References%20Completeness)、块内凝聚度(Intrachunk Cohesion,ICC)(https://huggingface.co/papers?q=Intrachunk%20Cohesion)、文档上下文连贯性(Document Contextual Coherence,DCC)(https://huggingface.co/papers?q=Document%20Contextual%20Coherence)、块完整性(Block Integrity,BI)(https://huggingface.co/papers?q=Block%20Integrity)和大小合规性(Size Compliance,SC)(https://huggingface.co/papers?q=Size%20Compliance),它们直接评估分块质量在各个关键维度上的表现。为支撑该框架,我们还引入了两种新的分块器:一种基于LLM的正则表达式分割器(LLM-regex splitter)(https://huggingface.co/papers?q=LLM-regex%20splitter)和一种先分割后合并的递归分割器(split-then-merge recursive splitter)(https://huggingface.co/papers?q=split-then-merge%20recursive%20splitter),并辅以有针对性的后处理技术。在涵盖法律、技术和社会科学领域的多样化语料库上,我们的指标驱动自适应方法显著提升了下游RAG性能。在不改变模型或提示的情况下,该框架将RAG的答案正确率提升至72%(从62-64%),成功回答的问题数量增加了超过30%(65个对比49个)。这些结果表明,由互补的内在指标(intrinsic metrics)(https://huggingface.co/papers?q=intrinsic%20metrics)引导的自适应、文档感知的分块(chunking)(https://huggingface.co/papers?q=chunking)方法,为实现更稳健的RAG系统提供了一条实用且有效的路径。代码已开源在 https://github.com/ekimetrics/adaptive-chunking(https://huggingface.co/papers?q=chunking)。
查看arXiv页面(https://arxiv.org/abs/2603.25333) | 查看PDF(https://arxiv.org/pdf/2603.25333) | GitHub(36)(https://github.com/ekimetrics/adaptive-chunking) | 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2603.25333)
引用该论文的模型(0)
暂无模型关联此论文
请在一个模型README.md中引用 arxiv.org/abs/2603.25333 以从本页面链接。
引用该论文的数据集(0)
暂无数据集关联此论文
请在一个数据集README.md中引用 arxiv.org/abs/2603.25333 以从本页面链接。
引用该论文的Spaces(0)
暂无Space关联此论文
请在一个Space README.md中引用 arxiv.org/abs/2603.25333 以从本页面链接。
包含该论文的收藏集(0)
暂无收藏集包含此论文
请将此论文添加到一个收藏集(https://huggingface.co/new-collection)以从本页面链接。
相似文章
CHOP: 多文档RAG的分块式上下文保留框架
CHOP是一个通过使用上下文感知元数据和基于大语言模型的分块相关性评估来改进多文档检索RAG系统的框架,可以减少语义冲突和幻觉现象。该方法通过智能分块和上下文保留策略实现了90.77%的Top-1命中率。
Web Retrieval-Aware Chunking (W-RAC):高效且经济高效的检索增强生成系统分块方法
W-RAC 提出了一种针对 RAG 系统中网页文档处理的经济高效的分块框架,通过结构化内容表示和检索感知的分组决策,将 LLM 令牌使用量降低一个数量级。该方法将文本提取与语义分块规划解耦,在实现与传统分块方法相当或更好的检索性能的同时,最大限度地降低了幻觉风险。
面向检索增强生成的查询自适应语义分块:一种结合上下文窗口扩展的动态策略
提出了一种面向检索增强生成的查询自适应语义分块方法,通过上下文窗口扩展动态调整分块边界,以提升检索精度。
@akshay_pachaar: 朴素 RAG vs. Blockify!一种全新的 RAG 方案:- 语料库体积缩减 40 倍 - 每次查询 token 用量减少 3 倍 -…
Blockify 是一个新的开源 RAG 框架,以专利技术「IdeaBlocks」流水线取代传统分块方式,声称可实现语料库体积缩减 40 倍、token 使用效率提升 3 倍、向量搜索准确率提升 2.3 倍。它将企业文档转化为结构化 XML 知识单元,以实现更连贯的 LLM 检索效果。
记录了不断破坏我的RAG系统的故障模式:分块、过期索引、混合搜索等
一位开发者分享了调试RAG系统时遇到的故障模式,包括分块、过期索引和混合搜索的问题,以及滑动窗口分块和上下文检索等实用修复方法。