SERC: 基于LDPC思想的语义纠错用于检索增强生成
摘要
提出SERC,一种受LDPC码启发的无需训练的方法,通过将生成过程视为噪声信道,并利用稀疏验证查询与外部证据对比,来纠正大语言模型中的幻觉。
arXiv:2605.28837v1 公告类型:新
摘要:尽管大语言模型(LLMs)展现了卓越的能力,但其可靠性因幻觉而严重受损。现有的内在自纠错方法试图解决这一问题,但由于自我偏见往往失败,即模型在缺乏外部验证的情况下难以识别自身输出中的错误。为克服这些局限,我们提出基于LDPC思想的语义纠错用于检索增强生成(SERC),提供一种理论框架来解读和缓解LLM幻觉。我们将文本生成过程重新表述为语义噪声信道,将生成的回应视为噪声污染的码字。受低密度奇偶校验(LDPC)码启发,SERC采用稀疏验证策略:并非穷举检查所有事实,而是生成低密度验证查询,并与外部证据进行验证,从而高效检测并纠正错误。我们在LongForm Bio和TruthfulQA基准上使用Llama-3-8B和Qwen2.5-14B评估SERC。实验结果表明,SERC优于内在自纠错方法和强检索增强基线,尤其在事实精度(FactScore)上展现出显著提升。值得注意的是,SERC使小语言模型(SLMs)在减少幻觉和信息保留方面超越更大规模的基线模型。我们的发现表明,SERC提供了一种无需训练、模型无关的解决方案,与密集方法相比显著降低了验证开销,在资源受限环境中实现了成本与保真度的最优权衡。
查看缓存全文
缓存时间: 2026/05/29 09:12
# SERC: 面向检索增强生成的LDPC启发式语义纠错
来源:https://arxiv.org/html/2605.28837
11institutetext:韩国外国语大学信息通信工程系22institutetext:韩国外国语大学计算机工程系33institutetext:韩国外国语大学统计系
33email:\{rhzs1208, amry0719, jaehakim, mashan120, krson, ijang\}@hufs\.ac\.kr
Juhwan Park11footnotemark:1 Jaeha Kim11footnotemark:1 Seunggyun Han Kyungrak Son22footnotemark:2 Ikbeom JangCorresponding authors\.
###### 摘要
尽管大型语言模型(LLM)展现了卓越的能力,但其可靠性因幻觉而严重受损。现有的内在自纠正方法试图解决这一问题,但常常因自我偏见而失败——模型在缺乏外部验证的情况下难以识别自身输出中的错误。为克服这些局限性,我们提出面向检索增强生成的LDPC启发式语义纠错(SERC),为理解和缓解LLM幻觉提供了理论框架。我们将文本生成过程重新表述为语义噪声信道,将生成的回复视为受噪声污染的码字。受低密度奇偶校验(LDPC)码的启发,SERC采用稀疏验证策略:不进行穷举式事实核查,而是生成低密度验证查询,并对照外部证据进行验证,从而高效检测和纠正错误。我们在LongForm Bio和TruthfulQA基准上使用Llama-3-8B和Qwen2.5-14B评估了SERC。实验结果表明,SERC优于内在自纠正方法和强大的检索增强基线,特别是在事实精确度(FactScore)方面显示出显著提升。值得注意的是,SERC使小语言模型(SLM)在幻觉减少和信息保留方面超越了更大规模的基线模型。我们的研究结果表明,与密集方法相比,SERC提供了一种无需训练、模型无关的解决方案,显著降低了验证开销,在资源受限环境中实现了成本与保真度的最佳平衡。代码与数据可在https://github.com/labhai/SERC获取。
## 1 引言
近年来大型语言模型(LLM)的进展 [2] 受到幻觉的限制——即与事实现实不一致的内容 [8]。这一结构性缺陷在医疗保健和法律等高风险领域带来了显著风险 [21],使得推理错误的检测与纠正成为一项关键挑战。
现有自纠正方法,如验证链(CoVe)[3],很大程度上依赖于内在推理,但遭受自我偏见(Self-Bias)的困扰——初始偏见会传播到验证阶段 [6]。在小语言模型(SLM)中实施此类程序因其有限的推理能力而更加复杂 [20]。我们认为,融入检索增强生成(RAG)是实现有效自纠正的先决条件,尤其是在资源受限的SLM环境中 [11]。
为解决这些局限性,我们通过信息论的视角重新定义幻觉,将LLM输出解释为通过不完美语义信道传输的信号 [16]。通过将幻觉重新表述为一种概率推理问题——生成文本是对未观测事实潜在变量 [10] 的噪声观测,我们应用经典纠错原则来恢复真实潜在流形(ground-truth manifold)。
基于此,我们提出SERC(语义纠错与还原)框架。受低密度奇偶校验(LDPC)码 [4] 设计哲学的启发,SERC建立了一种低密度验证方案(low-density verification plan),以高效暴露错误模式。检测到的错误通过与置信传播(BP)算法 [15] 类似的过程进行修正,传播更新后的信念以恢复全局语义一致性。我们的主要贡献有三点:(1) 提出语义信道模型,通过纠错码(ECC)的视角解释LLM幻觉,为自纠正提供理论基础;(2) 实现SERC框架,利用原子事实的低密度验证高效检测错误,无需额外训练;(3) 通过在LongForm Bio和TruthfulQA上的实验表明,SERC显著优于CoVe等基线,特别是在增强SLM的可靠性方面。
## 2 相关工作
LLM纠正与检索增强生成:LLM幻觉源于训练数据尾部与参数缺口 [8, 13]。内在自纠正(如CoVe [3])在缺乏外部依据时常常陷入自我偏见 [6]。RAG [11] 缓解了这一问题,但自适应变体(Self-RAG [1])需要昂贵的微调,且难以处理噪声检索 [24]。优化检索流水线的先进系统(CRAG [23]、MIGRES [19]、Adaptive RAG [7])主要关注信息收集,仍易受生成过程中引入的语义噪声影响。相比之下,SERC超越单纯的检索,作为信息论纠错(ECC)机制系统地纠正受损语义。SERC以训练无关(training-free)和模型无关(model-agnostic)的方式,在语义命题层面运行,其低密度验证相比RARR [5] 等穷举式基线提供了更优的成本效益。
信息论与编码:纠错码(ECC)[17] 确保可靠传输。值得注意的是,低密度奇偶校验(LDPC)码 [4] 通过稀疏奇偶校验结构实现高效解码,表示为Tanner图 [18],并通过迭代置信传播(BP)[15] 解码。在语义通信中,DeepSC [22] 等系统传输语义含义而非单纯比特,在噪声信道上保留语义。SERC将这些原则应用于幻觉缓解,将LLM输出解释为噪声污染的码字,并将验证视为稀疏奇偶校验。由此产生的Tanner风格图将事实命题与证据联系起来,从信息论角度实现结构化的幻觉纠正。
## 3 信息论抽象
### 3.1 语义信道建模:LLM作为噪声信道
图1:提出的语义信道模型。LLM的生成过程被建模为噪声信道,其中幻觉被视为语义噪声,SERC作为解码器恢复原始信息。
为解决内在自纠正中的自我偏见 [3, 6],我们将LLM生成过程建模为语义噪声信道。通过与经典信息论 [17, 16] 的形式类比,我们将问答过程分解为如图1所示的五个核心组成部分:
**源(Source):** 信息的起源,代表用户意图了解的真实世界实体或查询主题。
**消息(Message, \(M\)):** 关于该主题存在于现实世界中的客观事实集。\(M\) 定义了与语言表达无关的事实有效性的完整空间。
**码字(Codeword, \(C\)):** 仅使用属于消息 \(M\) 的事实构建的、无幻觉的理想自然语言回复。例如,关于爱因斯坦的查询,一个可能的码字是:“爱因斯坦出生于德国并发表了相对论。”
**语义噪声信道:** 随机的LLM生成过程。理想模型输出 \(C\),而实际LLM充当注入语义噪声的信道 [8],将理想码字扭曲为受噪声观测 \(C' = C \oplus \text{Noise}\),其中 \(\oplus\) 表示语义失真的叠加(见补充材料第5节)。
**解码器(SERC):** 作为语义解码器的提出框架。类似于LDPC [4] 和BP [15],SERC从噪声观测 \(C'\) 重建原始码字 \(C\),以恢复对原始消息 \(M\) 的事实保真度。
### 3.2 真实流形与操作性近似
基于语义信道抽象,SERC作为外部纠错层运行,纠正噪声输出 \(C'\),无需访问LLM的潜在空间。我们将操作性事实集(Operational Fact Set)\(F = \{ f_{k,i} \mid 1 \leq k \leq n, 1 \leq i \leq m_k \}\) 定义为从 \(C'\) 中提取的原子事实命题的集合。这里,\(f_{k,i}\) 表示从第 \(k\) 个句子 \(s_k\) 导出的第 \(i\) 个原子事实,作为解码图的单个变量节点。
SERC的目标是将受污染集合 \(F\) 投影到真实流形 \(\mathcal{M}_{\text{truth}}(Q)\) 上,该流形定义为所有源自理想无幻觉回复 \(\mathcal{C}^*(Q)\) 的事实集空间:
\[\mathcal{M}_{\text{truth}}(Q) = \{ \text{Facts}(C^*) \mid C^* \in \mathcal{C}^*(Q) \} \quad (1)\]
由于 \(\mathcal{M}_{\text{truth}}(Q)\) 不可观测,SERC操作性利用通过RAG检索的外部证据所一致的事实子空间来近似它。
为高效执行此投影,我们采用受低密度奇偶校验(LDPC)码启发的图策略。我们不进行密集的穷举验证,而是构建一个稀疏Tanner图,其中多个事实(变量节点)由单个分组验证查询(校验节点)验证。这种稀疏性最小化了验证的计算开销(LLM/RAG调用)。最后,纠正过程模拟置信传播(BP);一个事实(例如,实体类型)的局部纠正会逻辑传播到相关句子,确保重构文本收敛到全局语义一致性。
## 4 提出方法:SERC框架
我们提出SERC(语义纠错与还原)框架。基于第3节建立的理论基础,SERC实例化了语义解码器。我们将信道模型的抽象组件映射为具体的RAG操作:噪声码字 \(C'\) 被实例化为初始LLM回复 \(R_{\text{init}}\),奇偶校验约束通过稀疏验证查询实现。如算法1所示,该框架通过三个数学定义的阶段顺序运行,以使回复与真实流形对齐。
### 4.1 阶段1:粗对齐与实体防火墙
该过程从语言模型 \(LM\) 对于用户查询 \(Q\) 生成的初始回复 \(R_{\text{init}}\)(对应噪声观测 \(C'\))开始:
\[R_{\text{init}} \sim P_{LM}(y \mid Q) \quad (2)\]
标准RAG方法在初始生成遭遇来源混淆(例如,混淆同名人物)时常常失败。从信道编码术语看,这代表同步错误(Synchronization Error)——解码器尝试用错误的码本解码信号。为缓解此问题,我们引入实体防火墙机制。设 \(\mathcal{T}(\cdot)\) 为话题实体提取函数。我们从模型的内部知识(\(T_{\text{model}} = \mathcal{T}(R_{\text{init}})\))以及通过检索模块 \(\mathcal{R}\) 获得的外部证据(\(T_{\text{rag}} = \mathcal{T}(\mathcal{R}(Q))\))中提取核心主题实体。防火墙验证这两个实体之间的一致性(详见补充材料1.1中的判断提示):
\[
R_{\text{init}} =
\begin{cases}
LM(Q, \mathcal{R}(Q)) & \text{若 } \text{Consistency}(T_{\text{model}}, T_{\text{rag}}) = \text{False} \quad (\text{硬重置}) \\
R_{\text{init}} & \text{否则}
\end{cases}
\quad (3)
\]
如果检测到不匹配,将触发硬重置(Hard Reset),强制模型使用检索到的上下文重新生成基线,从而在细粒度验证之前对齐语义轨迹。
### 4.2 阶段2:事实分解与稀疏验证
图2:语义Tanner图结构。底部节点(变量节点)表示从句子中提取的原子事实,顶部节点(校验节点)表示分组验证查询。这种二分结构实现了高效的稀疏验证。
为进行精细的纠错,我们首先将连续信号 \(R_{\text{init}}\) 分解为离散的语义符号。基线回复 \(R_{\text{init}}\) 被分解为句子集 \(S = \{ s_1, \dots, s_n \}\)。对于每个句子 \(s_k\),我们使用专用提示提取原子事实子集 \(F_k = \{ f_{k,1}, \dots, f_{k,m_k} \}\)(详见补充材料1.2)。
**Tanner图构建** 我们将验证问题映射为语义Tanner图 \(G = (V, N_c, \mathcal{A})\),类似于低密度奇偶校验(LDPC)码,其中 \(\mathcal{A}\) 表示连接事实与验证查询的弧集,如图2所示:
**变量节点(\(V\)):** 表示单个原子事实 \(f_{k,i}\)(底部节点)。
**校验节点(\(N_c\)):** 表示验证查询(顶部节点)。为优化计算成本,我们采用稀疏验证策略。不独立验证每个事实,而是为每个句子组 \(F_k\) 生成一个综合性查询 \(q_k = \text{GenQ}(F_k)\),该查询充当校验节点约束(详见补充材料1.3)。
**综合征检测** 使用查询 \(q_k\),我们通过 \(\mathcal{R}\) 检索外部上下文,并使用骨干模型生成简洁的证据摘要 \(E_k\)。验证相似文章
错误编码:多语言语法错误纠正的上下文示例表征检索
本文介绍了语法错误表征(GER),一种基于错误模式而非语义相似性检索上下文示例的新方法,显著提升了具有上下文学习能力的大型语言模型在多语言语法错误纠正中的表现。
HalluSAE:利用稀疏自编码器检测大型语言模型中的幻觉
北京航空航天大学等机构的研究人员提出了HalluSAE,这是一个结合稀疏自编码器与相变理论的框架。该框架通过将生成过程建模为穿越势能地形的轨迹,来检测大型语言模型(LLM)中的幻觉,并精准定位发生事实性错误的关键过渡区域。
将幻觉视为异常:通过概率电路进行动态干预
本文提出了 PCNet,这是一种在大型语言模型(LLM)残差流上训练为可计算密度估计器的概率电路,用于将幻觉检测为几何异常。同时,本文还引入了 PC-LDCD,一种仅在生成幻觉 token 时才进行干预的动态修正方法,实现了近乎完美的检测率并降低了错误修正率。
微宏观检索:减少大型语言模型的长文本幻觉
本文介绍了微宏观检索(M2R),一种边检索边生成的框架,通过确保关键信息紧邻生成文本,减少长文本LLM输出中的幻觉。它使用基于课程学习的强化学习来训练检索和接地技能,在长上下文场景中尤其有效。
缓解流形偏离:面向可信MLLM解码的不确定性感知子空间矫正
本文介绍了MGAP,一种无需训练的解码方法,通过自适应地仅抑制语言先验中的有害部分,同时保留模型的语义流形,从而减少多模态大语言模型中的幻觉。该方法在POPE和CHAIR基准测试上优于先前的基线方法。