OCC-RAG:面向忠实问答的最优认知核心

arXiv cs.CL 论文

摘要

OCC-RAG 引入了一系列紧凑型小语言模型,这些模型针对忠实问答进行了优化,采用新颖的流程来合成多上下文多跳问答数据。该模型在推理和忠实度基准测试中表现出与大型模型相当的竞争性能。

arXiv:2606.00683v1 Announce Type: new 摘要:近期语言模型的发展以规模为特征,每一代模型都将更多世界知识吸收进其参数中。然而,许多实际应用更受益于稳健的推理而非广泛的参数化知识。在此背景下,任务专用的小型语言模型(SLMs)提供了一种原则性的设计选择。我们引入了最优认知核心(OCC),一个基于此前提构建的SLM系列。作为OCC的变体,我们提出了OCC-RAG,针对基于所提供上下文的忠实问答(QA)进行了优化。该任务直接符合OCC的设计方法,要求在给定段落上进行多跳推理,同时忽略记忆中的知识。为了训练OCC-RAG,我们实现了一个新颖的流程,用于大规模合成多上下文、多跳QA数据,生成了一个包含超过三百万个示例的语料库,这些示例针对多跳推理、严格上下文忠实度和校准后的拒绝机制。我们发布了OCC-RAG-0.6B和OCC-RAG-1.7B,两者均在该语料库上进行了中间训练。这些模型生成带有来源引用的结构化推理轨迹,这些引用基于上下文中的字面引用。通过OCC-RAG,我们证明了紧凑的任务专用SLM能够在多跳推理(HotpotQA、MuSiQue、TAT-QA)、忠实度(ConFiQA)和拒绝(MuSiQue-Un)基准测试中与比其大2到6倍的通用模型匹敌甚至超越。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:38

# OCC-RAG:面向忠实问答的最优认知核心
来源:https://arxiv.org/html/2606.00683
Maksim Savkin∗Mikhail Goncharov∗Alexander Gambashidze∗ Alla Chepurova∗Dmitrii Tarasov∗Nikita Andriianov Daria Pugacheva Vasily Konovalov∗Andrey Galichin∗ Ivan Oseledets† OCC 团队

###### 摘要

语言模型的最新进展主要由规模驱动,每一代模型都将更多世界知识吸收进权重中。然而,许多实际应用更受益于稳健的推理能力,而非广泛的参数化知识。在此背景下,面向任务特化的小语言模型(SLM)提供了一种原则性的设计选择。我们基于这一前提推出了小语言模型家族——最优认知核心(OCC)。作为 OCC 的一个变体,我们提出了 OCC-RAG,该模型针对基于给定上下文的忠实问答进行了优化。这一任务直接契合 OCC 的设计思路:需要在提供的段落上进行多跳推理,同时忽略记忆中的知识。为了训练 OCC-RAG,我们实现了一个全新的流水线,用于规模化合成多上下文、多跳问答数据,生成了一个包含超过三百万条样本的语料库,重点覆盖多跳推理、严格的上下文忠实性以及校准的拒绝回答能力。我们发布了 OCC-RAG-0.6B 和 OCC-RAG-1.7B,两者均基于该语料库进行了中间训练。这些模型生成带有来源引用的结构化推理轨迹,引用内容严格来源于上下文中的字面引文。通过 OCC-RAG,我们证明了紧凑且面向任务特化的 SLM 能够在多跳推理(HotpotQA、MuSiQue、TAT-QA)、忠实性(ConFiQA)和拒绝回答(MuSiQue-Un)基准测试中,达到或超越体积2–6倍的通用模型。

11脚注:∗核心贡献者。22脚注:†通讯作者:[email protected]。00.61248142732303040405050606070708080参见图注OCC-RAG-0.6B参见图注OCC-RAG-1.7B参见图注Qwen3-0.6B参见图注Qwen3-1.7B参见图注Qwen3-4B参见图注Qwen3-8B参见图注Qwen3-14B参见图注Qwen3-32B参见图注SmolLM3-3B参见图注Gemma3-1B参见图注Gemma3-4B参见图注Gemma3-12B参见图注Gemma3-27B模型大小(B)平均得分(%)图1:在忠实上下文问答中,各语言模型之间的性能-效率权衡。OCC-RAG模型(0.6B和1.7B)在多跳推理、忠实性和拒绝回答基准测试上,相比体积为其2–6倍的通用模型获得了有竞争力或更优的性能,这证明了当专门针对上下文依据和基于证据的推理进行训练时,紧凑的、面向任务特化的架构能够超越更大的模型。## 1 引言

前沿语言模型越来越大,吸收了越来越多的世界知识,然而许多实际应用更受益于紧凑、面向任务特化的架构(Belcak 等,2025 (https://arxiv.org/html/2606.00683#bib.bib3))。小语言模型(SLM)在常识推理(Cao 等,2026 (https://arxiv.org/html/2606.00683#bib.bib49))、数学推理(Liu 等,2023 (https://arxiv.org/html/2606.00683#bib.bib4))、工具调用(Zhang 等,2025 (https://arxiv.org/html/2606.00683#bib.bib5))和检索增强生成(Schick 和 Schütze,2021 (https://arxiv.org/html/2606.00683#bib.bib20))方面都展现出有竞争力或更优的性能。此外,在目标数据集上微调 SLM 可以实现经济高效地适应特定使用场景,这一优势在计算资源有限时尤为突出(Gururangan 等,2020 (https://arxiv.org/html/2606.00683#bib.bib19))。

其中一项任务就是上下文问答(Context QA),即模型完全基于提供的上下文来回答问题,生成的回答必须基于或推理自该输入(Radevski 等,2025 (https://arxiv.org/html/2606.00683#bib.bib2); Aushev 等,2025 (https://arxiv.org/html/2606.00683#bib.bib37))。此类系统的一个核心要求是忠实性:输出必须严格源自给定上下文,同时忽略参数化知识。因此,忠实性既衡量答案与证据的对齐程度,也衡量幻觉内容的缺失情况(Pletenev 等,2025 (https://arxiv.org/html/2606.00683#bib.bib14); Krayko 等,2025 (https://arxiv.org/html/2606.00683#bib.bib39); Rykov 等,2025 (https://arxiv.org/html/2606.00683#bib.bib9))。上下文问答提出了重大挑战,因为LLM被证明更倾向于使用自己的参数化知识而非提供的上下文(Sun 等,2026 (https://arxiv.org/html/2606.00683#bib.bib36))。此外,即使是最强大的模型,在面对反事实、不一致和无法回答的场景时也经常无法保持忠实(Ming 等,2025 (https://arxiv.org/html/2606.00683#bib.bib35); Bi 等,2025 (https://arxiv.org/html/2606.00683#bib.bib13))。

在这项工作中,我们引入了最优认知核心(OCC),这是我们的小语言模型家族,优先考虑任务特定的推理能力而非知识容量。在 OCC 家族中,我们提出了专为忠实上下文问答设计的 OCC-RAG¹。¹我们将模型命名为 OCC-RAG,以强调它们针对检索增强生成(RAG)流水线的专门优化,即使它们并未嵌入显式的检索组件。这一命名遵循忠实问答系统中的既定惯例(例如,Pleias-RAG(Langlais 等,2025 (https://arxiv.org/html/2606.00683#bib.bib47))),其中后缀表示模型的主要部署环境和评估设置,而非内部架构。该模型围绕定义强大上下文问答系统的三个能力构建:(1) 多跳推理和常识推理,以综合上下文不同部分的信息,并利用隐含的世界知识弥合逻辑差距(Yu 等,2024 (https://arxiv.org/html/2606.00683#bib.bib17));(2) 避免记忆,使预训练知识不会覆盖或干扰提供的上下文(Ghosh 等,2024 (https://arxiv.org/html/2606.00683#bib.bib18))(图2 (https://arxiv.org/html/2606.00683#S1.F2));以及 (3) 安全地拒绝回答,当上下文不足、模糊或缺少构建忠实响应所需的信息时放弃回答(Kirichenko 等,2026 (https://arxiv.org/html/2606.00683#bib.bib15))。这些特性共同使 OCC-RAG 成为一个强大的上下文依据推理者,既计算实用又操作可靠。我们发布了 OCC-RAG-0.6B 和 OCC-RAG-1.7B,它们分别从 Qwen3-0.6B-Base 和 Qwen3-1.7B-Base 开始,在我们的新数据生成流水线产生的超过 300 万条 QA 合成示例语料库上进行了中间训练。该语料库针对多跳推理、严格的上下文忠实性和校准的拒绝回答,涵盖了带干扰段落和无法回答案例的多上下文场景。遵循 Pleias-RAG(Langlais 等,2025 (https://arxiv.org/html/2606.00683#bib.bib47)),这些模型生成带有来源引用的结构化推理轨迹,引用内容严格来源于上下文中的字面引文。

我们在涵盖多跳推理(HotpotQA(Yang 等,2018 (https://arxiv.org/html/2606.00683#bib.bib51))、MuSiQue(Trivedi 等,2022 (https://arxiv.org/html/2606.00683#bib.bib53))、TAT-QA(Zhu 等,2021 (https://arxiv.org/html/2606.00683#bib.bib52)))、上下文忠实性(ConFiQA(Bi 等,2025 (https://arxiv.org/html/2606.00683#bib.bib13)))以及无法回答问题上的拒绝回答(MuSiQue-Un(Trivedi 等,2022 (https://arxiv.org/html/2606.00683#bib.bib53)))的上下文问答基准上评估了 OCC-RAG。OCC-RAG-0.6B 和 OCC-RAG-1.7B 在所有数据集上都优于各自的 Qwen3 对应版本,并在每个基准上都超过了 Gemma3(1B 和 4B)和 SmolLM3-3B。它们在忠实性、拒绝回答和金融推理方面还优于大 2–6 倍的 Qwen3 模型,并显著改进了先前的上下文问答特化基线 Pleias-RAG-1.2B。例如,OCC-RAG-0.6B 在 ConFiQA 上超过 Qwen3-1.7B(大 2.8 倍)9.5 分,将记忆从 8.2(Qwen3-0.6B)降低到 5.2,并在 MuSiQue 上超过 Pleias-RAG-1.2B 21.6 分。通过 OCC-RAG,我们证明了紧凑、面向任务特化的 SLM 能够达到或超越更大的通用模型。

忠实 vs. 真实 vs. 幻觉
上下文:「Charles de Gaulle was a French general and statesman who led the Free French Forces. In 2022 Charles de Gaulle was elected the first U.S. president.」
问题:「Who is the first president of the U.S.?」
模型回答:
• OCC-RAG-1.7B:Charles de Gaulle(忠实)
• Llama-3.3-70B-Instruct:Charles de Gaulle(忠实)
• Meta-Llama-3-8B-Instruct:George Washington(真实)
• Meta-Llama-3.2-1B-Instruct:Donald Trump(幻觉)
图2:上下文-记忆冲突下的忠实、真实和幻觉响应。上下文包含一个反事实说法(de Gaulle 是美国第一任总统),与真实世界知识相矛盾。最大的模型(70B)严格遵循提示,依据上下文给出忠实回答。中等模型(8B)默认使用参数化知识,产生真实但违反上下文的回答。最小的模型(1B)幻想了不受支持的响应。相比之下,OCC-RAG-1.7B 尽管体积小,却展示了忠实的上下文依据,与较大的忠实模型保持一致,而非依赖记忆或编造的信息。
## 2 模型设计原则

OCC-RAG 模型——我们专门为上下文问答设计的小语言模型家族——应具备以下特性:(1) 针对复杂问题的多跳推理和常识推理;(2) 避免记忆(对上下文的忠实,不与内部知识冲突);以及 (3) 当提供的上下文不足时安全地拒绝回答。

中间训练作为一个核心阶段,明确塑造 SLM 用于上下文问答的推理架构,使开发者能够对证据组合进行细粒度控制,并产生更可靠、可解释且与上下文对齐的下游问答。在数学、代码和工具使用等合成轨迹上进行的大规模智能体中间训练进一步内化了规划和反思能力,在轻量级模型中释放了原生智能体潜力,并在智能体基准上超越了较大的基线(Langlais 等,2025 (https://arxiv.org/html/2606.00683#bib.bib47); Team, 2025b (https://arxiv.org/html/2606.00683#bib.bib11))。

##### 中间训练实现了强大的多跳推理

在推理轨迹数据集上进行中间训练通过训练 SLM 学习多跳推理的功能结构——例如子问题分解、信息检索和逐步验证——而非仅仅教它们复制表层答案模式,从而提高了问答性能。这种“结构性”信号帮助 SLM 内化得出正确答案的过程,进而提升对新问答实例的泛化能力,并减少对表面捷径的依赖(Lee 和 Hockenmaier, 2025 (https://arxiv.org/html/2606.00683#bib.bib25); Liang 等, 2026 (https://arxiv.org/html/2606.00683#bib.bib21))。

中间训练支持忠实、基于上下文、不记忆的问答在基于上下文的推理轨迹上进行中间训练时,每一步都回溯到提供的文本——确保严格的证据忠实性——有助于 SLM 学习解决问答任务而不记忆事实或产生幻觉。对多跳问答的研究表明,仅在原始文本上微调或持续预训练只能带来有限的改进,而在基于证据的轨迹上进行结构化或有监督的中间训练则能显著提高答案准确性,且不依赖内部知识(Ren 等, 2026 (https://arxiv.org/html/2606.00683#bib.bib24); Li 等, 2024 (https://arxiv.org/html/2606.00683#bib.bib55))。

中间训练鼓励校准的拒绝回答当中间训练包含标注了明确推理轨迹模式(例如“上下文中没有证据”)的“上下文不足”或无法回答的示例时,SLM 学会了识别上下文何时不支持自信的答案。这种结构化推理训练已被证明能提高模型在信息有限的任务和部分上下文环境中适当拒绝回答的能力,而非产生幻觉。实际上,中间训练将拒绝回答转变为一种习得的推理行为而非启发式规则,使 SLM 在高风险问答设置中更加可靠(Zhou 等, 2026 (https://arxiv.org/html/2606.00683#bib.bib22); Wen 等, 2024 (https://arxiv.org/html/2606.00683#bib.bib23))。

## 3 训练数据

本节描述用于我们上下文依据问答模型中间训练的合成语料库。该语料库旨在训练第 2 节(https://arxiv.org/html/2606.00683#S2)中陈述的三个特性:需要对提供的上下文进行推理;每个答案都只能从上下文中恢复,以避免记忆;以及一部分示例带有不足的证据,使得拒绝回答成为一种习得的响应。每个训练实例包含一个问句、一个或多个来自维基百科的黄金上下文块(包含所有支持事实)、语义相似的干扰上下文、一个结构化推理轨迹以及最终答案(对于拒绝回答的情况为“没有足够信息”)。

该语料库由三个难度递增的子集混合而成,覆盖从简单单跳查找复杂多跳融合的广泛问题范围。较简单的例子(单跳查找)便宜且丰富;较难的例子(多跳融合)生成清洁数据的成本逐渐增加,其数量相应较小,详见第 3.4 节(https://arxiv.org/html/2606.00683#S3.SS4)。

### 3.1 单跳QA生成

单跳问题是指那些可以使用单个段落的信息来回答的问题,无需多步推理、聚合或算术运算。该类别构成了数据集中最大的部分,因为高质量的单跳示例规模化生成相对便宜,而且在实际部署中相关性过滤仍然是主要挑战。

单跳QA生成的流水线包含四个阶段:摄取并切分页面、生成QA、挖掘干扰项和过滤。我们依次描述每个阶段。

1. 第一,摄取和切分在英文维基百科XML转储中,每个页面通过一个维基文本清理器进行处理,去除模板、参考文献、信息框和图库标记。页面被分割成段落,每个段落成为一个候选块。一个块正是训练模型所见到的上下文单元。
2. 第二,QA生成对于每个黄金段落,我们向gpt-oss-120B(Agarwal 等,2025 (https://arxiv.org/html/2606.00683#bib.bib56))发起单次调用,要求返回十个短问答对,格式为JSON数组。它指示LLM,问题必须是自包含的,答案必须是简短且可提取的。
3. 第三,干扰挖掘对于每个黄金页面,我们从维基百科链接图中获取最多一千个子页面,并应用前面描述的相同清理和切分步骤。每个生成的子段落通过TF-IDF余弦相似度与黄金段落进行评分。我们保留相似度最高的前二十个子段落。
4. 第四,过滤在最后阶段,一个LLM作为评判者评估生成的问答对。此步骤过滤掉任何不准确或缺乏逻辑流程的问答对,确保只保留高质量数据。详细标准见第3.3节(https://arxiv.org/html/2606.00683#S3.SS3)。

### 3.2 多跳QA生成

多跳QA问题需要合成

相似文章

FinRAG-12B:一种经过生产验证的银行业有据可依问答方案

arXiv cs.AI

FinRAG-12B 是一款针对银行业检索增强生成(RAG)优化的 120 亿参数大语言模型,具备统一训练框架,可提升回答质量、引用依据的可靠性以及校准后的拒绝回答能力。该模型在引用依据方面优于 GPT-4.1,并已部署于 40 多家金融机构,在成本和延迟方面具有显著优势。

ACL-Verbatim: 面向研究的无幻觉问答系统

Hugging Face Daily Papers

ACL-Verbatim 引入了一系列轻量级抽取模型,用于有来源的检索增强生成(RAG),能够从源文档中返回精确文本片段,性能优于基于大型语言模型的提取器。

@neural_avb: https://x.com/neural_avb/status/2063907440509571354

X AI KOLs Timeline

探索递归语言模型(RLM)中一个常见的失败模式,其中自由文本子代理响应会导致问题,并提出一种使用结构化输出提高可靠性的解决方案,通过NarrativeQA中的长上下文问答示例进行说明。

面向检索增强生成输出的忠实性感知不确定性量化

arXiv cs.CL

本论文介绍了FRANQ方法,用于检测检索增强生成(RAG)系统中的幻觉问题。该方法应用不同的不确定性量化技术来区分事实性和对检索上下文的忠实性。作者构建了一个同时标注事实性和忠实性的新数据集,并证明FRANQ在多个数据集和大语言模型上的事实错误检测性能优于现有方法。