高棉语检索增强问答的语言模型比较研究
摘要
本文对电信领域高棉语检索增强问答中的嵌入模型和生成器后端进行了比较评估,发现BGE-M3在检索方面表现最佳,而生成器的优势因指标而异。
arXiv:2605.22099v1 公告类型:新
摘要:检索增强生成(RAG)已成为一种有前景的范式,可将大语言模型(LLM)的输出基于检索到的证据进行 grounding,从而减少幻觉并提高事实准确性。然而,其有效性对于低资源、非拉丁文字语言(如高棉语)尚未得到充分检验。在本文中,我们为高棉语电信领域文档构建了一个基于RAG的问答系统。我们进行了两阶段比较评估。首先,我们对三种嵌入模型进行基准测试:BGE-M3(567M)、Jina-Embeddings-v3(570M)和Qwen3-Embedding(597M),用于高棉语文档的稠密检索。BGE-M3始终表现最佳,在@3时实现命中率0.285、文件命中率0.700、MRR@3为0.221、精确率@3为0.112,显著优于其他检索器。其次,使用BGE-M3作为选定检索器,我们在200个高棉语问答对的精选黄金数据集上评估了五个生成器后端:Qwen3(8B)、Qwen3.5(9B)、Sailor2-8B-Chat、SeaLLMs-v3-7B-Chat和Llama-SEA-LION-v2-8B-IT。为量化系统性能,我们应用了六种受RAGAS启发的指标:忠实度、答案相关性、上下文相关性、事实正确性、答案相似度和答案正确性。结果显示,没有单一模型在所有指标上占优:Qwen3.5-9B在忠实度(0.859)和上下文相关性(0.726)上最高,Qwen3-8B在事实正确性(0.380)上最高,而SeaLLMs-v3-7B-Chat在答案相关性(0.867)、答案相似度(0.836)和答案正确性(0.599)上表现最佳。这些发现突显了检索器选择仍是高棉语RAG的主要瓶颈,而生成器的优势则取决于优先考虑的是grounding、事实精度还是语义相似度。
查看缓存全文
缓存时间: 2026/05/22 08:45
# 面向高棉语检索增强问答的语言模型比较研究 来源: https://arxiv.org/html/2605.22099 Sereiwathna RosPhannet Pov (韩国忠北大学大数据系, 清州); Ratanaktepi Chhor (韩国忠北大学大数据系, 清州); Kimleang Ly (柬埔寨邮电部信息通信技术总局, 金边); Wan-Sup Cho (韩国忠北大学管理信息系统系, 清州 / BigDatalabs Co., Ltd., 清州); Saksonita Khoeurn (通讯作者: [email protected], 韩国忠北大学管理信息系统系, 清州 / BigDatalabs Co., Ltd., 清州) ###### 摘要 检索增强生成(RAG)已成为一种有前景的范式,能够将大语言模型(LLM)的输出基于检索到的证据,从而减少幻觉并提高事实准确性。然而,对于低资源、非拉丁字母的语言(如高棉语),RAG 的有效性在很大程度上仍未得到充分研究。在本文中,我们提出了一种基于 RAG 的问答系统,用于高棉语电信领域文档。我们进行了两个阶段的比较评估。首先,我们对三种嵌入模型——BGE-M3(567M)、Jina-Embeddings-v3(570M)和 Qwen3-Embedding(597M)——在高棉语文档的密集检索中进行了基准测试。BGE-M3 始终表现最佳,达到了 Hit Rate@3 为 0.285、File Hit Rate@3 为 0.700、MRR@3 为 0.221 以及 Precision@3 为 0.112,大幅优于其他检索器。其次,使用 BGE-M3 作为选定检索器,我们在一个包含 200 个高棉语问答对的精选黄金数据集上评估了五种生成器后端——Qwen3(8B)、Qwen3.5(9B)、Sailor2-8B-Chat、SeaLLMs-v3-7B-Chat 和 Llama-SEA-LION-v2-8B-IT。为了量化系统性能,我们应用了六种受 RAGAS 启发的指标:忠实度、答案相关性、上下文相关性、事实正确性、答案相似度和答案正确性。结果显示,没有一个模型在所有指标上占据主导地位:Qwen3.5-9B 在忠实度(0.859)和上下文相关性(0.726)上得分最高,Qwen3-8B 在事实正确性(0.380)上得分最高,而 SeaLLMs-v3-7B-Chat 在答案相关性(0.867)、答案相似度(0.836)和答案正确性(0.599)上表现最佳。这些发现强调了,对于高棉语 RAG,检索器的选择仍然是主要瓶颈,而生成器的优势则取决于优先考虑的是接地性、事实精确性还是语义相似性。 关键词:检索增强生成,RAG 评估,RAGAS 指标,高棉语问答,高棉语自然语言处理,本地大语言模型,密集检索,低资源语言 ## 1 引言 检索增强生成(RAG)[10 (https://arxiv.org/html/2605.22099#bib.bib15)]已成为针对特定领域文档集合进行问答的常用方法,因为它将外部检索与大型语言模型(LLM)的生成能力相结合。在此类系统中,性能不仅取决于生成器,还取决于检索的质量,以及生成的答案是否仍然基于检索到的证据。因此,评估 RAG 本质上是多维度的:系统可能因为未能检索到相关证据、模型未有效利用检索到的上下文、或者模型生成了无依据的幻觉内容而失败。然而,现有的评估实践在很大程度上仍受以英语为中心的环境影响,并不能很好地迁移到低资源语言或制度敏感的领域[6 (https://arxiv.org/html/2605.22099#bib.bib20),4 (https://arxiv.org/html/2605.22099#bib.bib13),18 (https://arxiv.org/html/2605.22099#bib.bib28)]。 这些局限性对于高棉语文档问答(QA)尤为重要。高棉语是一种低资源语言,采用复杂的元音附标文字书写,拥有有限的标注资源和薄弱的词分割标准化。这些特点在 RAG 流水线的多个阶段引入了挑战,包括文本提取、文档预处理、检索和答案评估。在机构环境中,由于需要基于权威文档提供可信的响应,问题进一步加剧,因为幻觉或无充分依据的答案可能削弱公众信心[8 (https://arxiv.org/html/2605.22099#bib.bib25)]。尽管对多语言和低资源自然语言处理(NLP)的兴趣与日俱增,但目前仍不清楚哪些检索模型、哪些可本地部署的生成器以及哪些自动化评估信号最适合高棉语 RAG 系统。 在本文中,我们对基于检索增强的高棉语机构文档问答进行了系统研究。我们的关注点不仅在于端到端的答案质量,还在于低资源、非拉丁字母环境下检索、生成和自动化评估之间的相互作用。我们研究了一个为本地托管部署而构建的隐私保护 RAG 流水线,该流水线处理高棉语电信领域文档,使我们能够在数据主权约束下考察基于文档的问答的实际需求。 我们的贡献有三方面: 1. 1.我们对用于高棉语文档检索的密集检索器进行了基准测试,并分析了它们在包含噪声且领域多样的机构文本上的有效性。 2. 2.我们比较了五种可本地部署的生成器模型,包括通用多语言大语言模型和专注于东南亚的模型,以评估区域专业化是否能为高棉语问答带来可衡量的增益。 3. 3.我们在此环境中检验了六种适配的 RAGAS 风格指标,并讨论了它们用于评估高棉语 RAG 流水线的效用和局限性。 为支持本研究,我们构建了一个包含 200 个高棉语问答对的黄金评估集,这些问答对源自多个机构子领域的权威文档。利用该基准,我们提供了关于高棉语文档问答中检索质量、答案质量和指标行为的实证分析。我们的发现表明,检索器的选择对下游性能有显著影响,而生成器模型的相对优势在面向接地性和面向相似性的评估指标上有所不同。更广泛地说,本文强调了在低资源环境下需要具有语言意识的 RAG 评估实践,并提供了证据表明在英语中验证过的方法不应假定能对高棉语产生相同表现。 ## 2 相关工作 RAG 将检索器与 LLM 结合起来,使得答案从检索到的证据中生成,而非仅依赖参数化记忆[10 (https://arxiv.org/html/2605.22099#bib.bib15)]。在典型的流水线中,文档被收集、分割成段落、索引,并在推理时检索以条件化答案生成[6 (https://arxiv.org/html/2605.22099#bib.bib20)]。由于端到端性能同时取决于检索质量和响应接地性,RAG 已成为知识密集型任务广泛使用的框架。早期系统通常依赖密集检索方法,如 Dense Passage Retrieval(DPR)[9 (https://arxiv.org/html/2605.22099#bib.bib19)],而更新的多语言检索器(如 BGE-M3[1 (https://arxiv.org/html/2605.22099#bib.bib7)])则旨在改善跨语言和文字的迁移能力。这些进展在低资源环境下尤其相关,因为检索可能因有限的训练数据、光学字符识别(OCR)伪影和对文字敏感的预处理挑战而退化[7 (https://arxiv.org/html/2605.22099#bib.bib8)]。 传统的基于参考的指标,如双语评估辅助(BLEU)和面向召回的摘要评估辅助(ROUGE),会衡量与黄金参考的词汇重叠度[17 (https://arxiv.org/html/2605.22099#bib.bib30),11 (https://arxiv.org/html/2605.22099#bib.bib31)],而基于嵌入的指标(如 BERTScore)则通过上下文表示更好地捕捉语义相似性[23 (https://arxiv.org/html/2605.22099#bib.bib32)]。然而,这些方法对于 RAG 来说并不完全充分,因为它们不直接评估响应是否由检索到的证据支持。这一局限性在低资源环境下尤为重要,因为构建高质量参考集的成本高昂,且正确答案可能在词汇和句法上表现出显著变化。 因此,近期工作超越了答案相似性,转向对接地性和上下文使用的显式评估。GEval 表明,LLM-as-a-judge 方法能够支持灵活的基于评分标准的评估[12 (https://arxiv.org/html/2605.22099#bib.bib9)]。RAGAS 通过忠实度、答案相关性以及与上下文相关的指标等,将这一思路适配到 RAG 流水线[4 (https://arxiv.org/html/2605.22099#bib.bib13),5 (https://arxiv.org/html/2605.22099#bib.bib11)]。相关的基准测试如 RGB 进一步在噪声检索和反事实条件下对 RAG 系统进行压力测试[2 (https://arxiv.org/html/2605.22099#bib.bib12)]。在一个应用电信环境下,Roychowdhury 等人[18 (https://arxiv.org/html/2605.22099#bib.bib28)]也报告称,诸如忠实度和事实正确性等接地性导向的指标比基于相似性的指标更接近专家判断。综合来看,这些文献表明,RAG 评估不仅应考虑输出质量,还应考虑证据支持。 尽管 RAG 和 LLM 评估进展迅速,但大多数证据仍来自英语和其他高资源语言。对于高棉语,这造成了重要空白:文档处理和检索必须应对非拉丁字母文字、不一致的词分割、OCR 噪声以及有限的任务特定资源。区域性专注模型如 SEA-LION[14 (https://arxiv.org/html/2605.22099#bib.bib3)] 和 Sailor2[3 (https://arxiv.org/html/2605.22099#bib.bib4)] 表明对东南亚语言的支持日益增强,但它们本身并不能确定检索模型、生成器模型和自动化评估指标在高棉语机构问答环境中的表现。 Ly 等人[13 (https://arxiv.org/html/2605.22099#bib.bib1)] 进行了一项研究,其中他们准备了一个问题和相应高棉语答案的数据集,以对高棉语大语言模型(LLM)进行微调实验。为了评估生成的答案,作者采用了基于相似性的指标,将模型输出与参考答案进行比较。具体来说,他们使用了 ROUGE-1、ROUGE-2 和 ROUGE-L 分别衡量一元组重叠、二元组重叠和最长公共子序列。 参见图说明 图1: RAG 流水线的系统架构。这些指标提供了关于生成响应与真实答案接近程度的见解。相比之下,我们的工作基于检索到的上下文信息生成答案,而非依赖于与预定义目标答案的直接比较。因此,传统的基于相似性的评估指标可能无法充分反映响应的质量,因为它们未能充分体现生成答案与所提供上下文之间的相关性和忠实度。 更广泛地说,先前关于高棉语及相关低资源语言处理的研究表明,语言特定的预处理和资源限制会实质性影响下游系统性能。我们的研究立足于这一视角,共同评估了高棉语机构文档环境中的检索质量、答案生成和自动化 RAG 评估。 总体而言,本工作位于多语言 RAG、接地性感知评估和低资源语言处理的交叉点。与以英语为中心的前期工作不同,我们的关注点不仅是 RAG 是否有效,还包括其检索和评估假设在高棉语环境中是否仍然可靠。 ## 3 方法论 我们的实验设置遵循标准的 RAG 流水线,包括一个检索器后接一个生成器模块。图1 (https://arxiv.org/html/2605.22099#S2.F1) 显示了我们的流水线示意图。系统的输入是一个用户查询(高棉语或英语),该查询通过密集检索处理,然后基于检索到的上下文进行基于 LLM 的答案生成。 ### 3.1 数据集 我们收集了来自发布与信息通信技术(ICT)相关官方文档的网站上的开源数据。数据来源包括通知、指南、法律、公告、法令、次级法令、政府文件、新闻稿、问答文件、决定和一般信息。语料库主要为高棉语文档,其中嵌有英语技术术语。专注于封闭领域的机构文档使得本研究能够创建一个具体且可验证的知识领域,这对于在低资源语言环境下构建问答系统至关重要。 文档被预处理为 Markdown 格式,并递归分块为保持语义连贯性的片段。每个分块携带元数据,包括源文档标识符和用于溯源跟踪的唯一分块 ID。生成的语料库包含超过 7,000 个分块。 为了进行评估,我们精心整理了一个黄金数据集,包含从电信领域文档语料库中提取的 200 个问答对。问题涵盖多个领域,并反映了用高棉语编写的真实市民查询。每个条目包括:(1) 一个问题,(2) 由领域专家撰写的目标答案(真实答案),以及 (3) 用于分层分析的领域元数据(文档 ID、问题 ID、领域类别)。 ### 3.2 检索器模型 检索器模块基于密集段落检索。一个基于编码器的语言模型为查询和文档分块计算嵌入。对于每个查询嵌入,检索器使用余弦相似度输出前 kk 个最相似的分块嵌入。 我们评估了三种嵌入模型,以确定哪一种能为高棉语文档提供最有效的密集检索: 1. 1.BGE-M3 (567M) [1 (https://arxiv.org/html/2605.22099#bib.bib7)]: 通过自知识蒸馏支持多语言、多功能和多粒度嵌入,在包括东南亚文字在内的 100 多种语言中实现了有竞争力的性能。通过 Ollama[15 (https://arxiv.org/html/2605.22099#bib.bib17)] 提供服务。 2. 2.Jina-Embeddings-v3 (570M) [20 (https://arxiv.org/html/2605.22099#bib.bib33)]: 一种支持 89 种以上语言的嵌入模型,具有针对检索、分类和语义相似性的任务特定适配器。通过 Ollama 提供服务。 3. 3.Qwen3-Embedding (597M) [25 (https://arxiv.org/html/2605.22099#bib.bib5)]: 来自 Qwen 系列的紧凑型嵌入模型,专为跨多种语言的语义搜索设计。通过 Ollama 提供服务。 文档分块在离线阶段批量嵌入,完整的向量数据库被序列化以用于高效的运行时加载。在查询时,选择前 kk 个分块(默认 k=3k=3)并与相似度分数和源元数据连接成一个结构化的上下文字符串。检索器使用标准信息检索指标进行评估:Hit Rate@kk、文件级 Hit Rate@kk、平均倒数排名(MRR@kk)和 Precision@kk。 ### 3.3 生成器模型 一旦为查询检索到相关上下文,查询和上下文将被...
相似文章
低资源语言农业文档中有效文本嵌入的分块策略评估
本文评估了四种用于高棉语农业文档检索增强生成(RAG)的文本分块策略,发现基于字符的递归分块(300字符)在检索和相关性方面表现最佳。
MM-BizRAG:重新思考面向通用企业问答的多模态检索增强生成
MM-BizRAG 是一个面向企业问答的多模态检索增强生成系统,通过文档结构感知分割和版式感知解析,在异构企业文档上的表现比以视觉为中心的基线方法最高提升 32%。该论文还提出了 FastRAGEval——一种基于 LLM 的高效评估指标,其与人类判断的对齐程度优于 RAGChecker,且成本更低。
对 Google Embeddings 2 与开源模型在多语言稠密检索和 RAG 系统中的基准测试
本文对 Google Embeddings 2 与五个开源模型在多语言稠密检索和 RAG 系统中进行了基准测试,发现 GE2 在准确性上表现最佳但速度较慢,而 mE5-L 作为低延迟的竞争性替代方案。
从基准测试到推理能力:大语言模型在越南法律文本上的双维度大规模评估
为大语言模型在越南法律文本简化任务上提出了一个综合的双维度评估框架,结合了定量基准测试(准确性、可读性、一致性)和跨 GPT-4o、Claude 3 Opus、Gemini 1.5 Pro 和 Grok-1 的定性错误分析。
当检索无济于事:一项大规模生物医学 RAG 研究
这项大规模研究涵盖 5 个模型(7B–72B)、10 个生物医学问答数据集、4 种检索方法和 4 个语料库,发现在生物医学问答任务中,RAG 相比无检索基线仅带来微小且不稳定的提升(1–2 个百分点)。研究得出结论:主要瓶颈并非检索质量,而是模型有效利用检索证据的能力有限。