SERC: 基于LDPC思想的语义纠错用于检索增强生成

arXiv cs.CL 2026/05/29 04:00 论文

摘要

提出SERC，一种受LDPC码启发的无需训练的方法，通过将生成过程视为噪声信道，并利用稀疏验证查询与外部证据对比，来纠正大语言模型中的幻觉。

arXiv:2605.28837v1 公告类型：新摘要：尽管大语言模型（LLMs）展现了卓越的能力，但其可靠性因幻觉而严重受损。现有的内在自纠错方法试图解决这一问题，但由于自我偏见往往失败，即模型在缺乏外部验证的情况下难以识别自身输出中的错误。为克服这些局限，我们提出基于LDPC思想的语义纠错用于检索增强生成（SERC），提供一种理论框架来解读和缓解LLM幻觉。我们将文本生成过程重新表述为语义噪声信道，将生成的回应视为噪声污染的码字。受低密度奇偶校验（LDPC）码启发，SERC采用稀疏验证策略：并非穷举检查所有事实，而是生成低密度验证查询，并与外部证据进行验证，从而高效检测并纠正错误。我们在LongForm Bio和TruthfulQA基准上使用Llama-3-8B和Qwen2.5-14B评估SERC。实验结果表明，SERC优于内在自纠错方法和强检索增强基线，尤其在事实精度（FactScore）上展现出显著提升。值得注意的是，SERC使小语言模型（SLMs）在减少幻觉和信息保留方面超越更大规模的基线模型。我们的发现表明，SERC提供了一种无需训练、模型无关的解决方案，与密集方法相比显著降低了验证开销，在资源受限环境中实现了成本与保真度的最优权衡。

查看原文

查看缓存全文

缓存时间: 2026/05/29 09:12

# SERC: 面向检索增强生成的LDPC启发式语义纠错

来源：https://arxiv.org/html/2605.28837

11institutetext:韩国外国语大学信息通信工程系22institutetext:韩国外国语大学计算机工程系33institutetext:韩国外国语大学统计系
33email:\{rhzs1208, amry0719, jaehakim, mashan120, krson, ijang\}@hufs\.ac\.kr

Juhwan Park11footnotemark:1  Jaeha Kim11footnotemark:1  Seunggyun Han  Kyungrak Son22footnotemark:2  Ikbeom JangCorresponding authors\.

###### 摘要

尽管大型语言模型（LLM）展现了卓越的能力，但其可靠性因幻觉而严重受损。现有的内在自纠正方法试图解决这一问题，但常常因自我偏见而失败——模型在缺乏外部验证的情况下难以识别自身输出中的错误。为克服这些局限性，我们提出面向检索增强生成的LDPC启发式语义纠错（SERC），为理解和缓解LLM幻觉提供了理论框架。我们将文本生成过程重新表述为语义噪声信道，将生成的回复视为受噪声污染的码字。受低密度奇偶校验（LDPC）码的启发，SERC采用稀疏验证策略：不进行穷举式事实核查，而是生成低密度验证查询，并对照外部证据进行验证，从而高效检测和纠正错误。我们在LongForm Bio和TruthfulQA基准上使用Llama-3-8B和Qwen2.5-14B评估了SERC。实验结果表明，SERC优于内在自纠正方法和强大的检索增强基线，特别是在事实精确度（FactScore）方面显示出显著提升。值得注意的是，SERC使小语言模型（SLM）在幻觉减少和信息保留方面超越了更大规模的基线模型。我们的研究结果表明，与密集方法相比，SERC提供了一种无需训练、模型无关的解决方案，显著降低了验证开销，在资源受限环境中实现了成本与保真度的最佳平衡。代码与数据可在https://github.com/labhai/SERC获取。

## 1 引言

近年来大型语言模型（LLM）的进展 [2] 受到幻觉的限制——即与事实现实不一致的内容 [8]。这一结构性缺陷在医疗保健和法律等高风险领域带来了显著风险 [21]，使得推理错误的检测与纠正成为一项关键挑战。

现有自纠正方法，如验证链（CoVe）[3]，很大程度上依赖于内在推理，但遭受自我偏见（Self-Bias）的困扰——初始偏见会传播到验证阶段 [6]。在小语言模型（SLM）中实施此类程序因其有限的推理能力而更加复杂 [20]。我们认为，融入检索增强生成（RAG）是实现有效自纠正的先决条件，尤其是在资源受限的SLM环境中 [11]。

为解决这些局限性，我们通过信息论的视角重新定义幻觉，将LLM输出解释为通过不完美语义信道传输的信号 [16]。通过将幻觉重新表述为一种概率推理问题——生成文本是对未观测事实潜在变量 [10] 的噪声观测，我们应用经典纠错原则来恢复真实潜在流形（ground-truth manifold）。

基于此，我们提出SERC（语义纠错与还原）框架。受低密度奇偶校验（LDPC）码 [4] 设计哲学的启发，SERC建立了一种低密度验证方案（low-density verification plan），以高效暴露错误模式。检测到的错误通过与置信传播（BP）算法 [15] 类似的过程进行修正，传播更新后的信念以恢复全局语义一致性。我们的主要贡献有三点：(1) 提出语义信道模型，通过纠错码（ECC）的视角解释LLM幻觉，为自纠正提供理论基础；(2) 实现SERC框架，利用原子事实的低密度验证高效检测错误，无需额外训练；(3) 通过在LongForm Bio和TruthfulQA上的实验表明，SERC显著优于CoVe等基线，特别是在增强SLM的可靠性方面。

## 2 相关工作

LLM纠正与检索增强生成：LLM幻觉源于训练数据尾部与参数缺口 [8, 13]。内在自纠正（如CoVe [3]）在缺乏外部依据时常常陷入自我偏见 [6]。RAG [11] 缓解了这一问题，但自适应变体（Self-RAG [1]）需要昂贵的微调，且难以处理噪声检索 [24]。优化检索流水线的先进系统（CRAG [23]、MIGRES [19]、Adaptive RAG [7]）主要关注信息收集，仍易受生成过程中引入的语义噪声影响。相比之下，SERC超越单纯的检索，作为信息论纠错（ECC）机制系统地纠正受损语义。SERC以训练无关（training-free）和模型无关（model-agnostic）的方式，在语义命题层面运行，其低密度验证相比RARR [5] 等穷举式基线提供了更优的成本效益。

信息论与编码：纠错码（ECC）[17] 确保可靠传输。值得注意的是，低密度奇偶校验（LDPC）码 [4] 通过稀疏奇偶校验结构实现高效解码，表示为Tanner图 [18]，并通过迭代置信传播（BP）[15] 解码。在语义通信中，DeepSC [22] 等系统传输语义含义而非单纯比特，在噪声信道上保留语义。SERC将这些原则应用于幻觉缓解，将LLM输出解释为噪声污染的码字，并将验证视为稀疏奇偶校验。由此产生的Tanner风格图将事实命题与证据联系起来，从信息论角度实现结构化的幻觉纠正。

## 3 信息论抽象

### 3.1 语义信道建模：LLM作为噪声信道

图1：提出的语义信道模型。LLM的生成过程被建模为噪声信道，其中幻觉被视为语义噪声，SERC作为解码器恢复原始信息。

为解决内在自纠正中的自我偏见 [3, 6]，我们将LLM生成过程建模为语义噪声信道。通过与经典信息论 [17, 16] 的形式类比，我们将问答过程分解为如图1所示的五个核心组成部分：

**源（Source）：** 信息的起源，代表用户意图了解的真实世界实体或查询主题。

**消息（Message, \(M\)）：** 关于该主题存在于现实世界中的客观事实集。\(M\) 定义了与语言表达无关的事实有效性的完整空间。

**码字（Codeword, \(C\)）：** 仅使用属于消息 \(M\) 的事实构建的、无幻觉的理想自然语言回复。例如，关于爱因斯坦的查询，一个可能的码字是：“爱因斯坦出生于德国并发表了相对论。”

**语义噪声信道：** 随机的LLM生成过程。理想模型输出 \(C\)，而实际LLM充当注入语义噪声的信道 [8]，将理想码字扭曲为受噪声观测 \(C' = C \oplus \text{Noise}\)，其中 \(\oplus\) 表示语义失真的叠加（见补充材料第5节）。

**解码器（SERC）：** 作为语义解码器的提出框架。类似于LDPC [4] 和BP [15]，SERC从噪声观测 \(C'\) 重建原始码字 \(C\)，以恢复对原始消息 \(M\) 的事实保真度。

### 3.2 真实流形与操作性近似

基于语义信道抽象，SERC作为外部纠错层运行，纠正噪声输出 \(C'\)，无需访问LLM的潜在空间。我们将操作性事实集（Operational Fact Set）\(F = \{ f_{k,i} \mid 1 \leq k \leq n, 1 \leq i \leq m_k \}\) 定义为从 \(C'\) 中提取的原子事实命题的集合。这里，\(f_{k,i}\) 表示从第 \(k\) 个句子 \(s_k\) 导出的第 \(i\) 个原子事实，作为解码图的单个变量节点。

SERC的目标是将受污染集合 \(F\) 投影到真实流形 \(\mathcal{M}_{\text{truth}}(Q)\) 上，该流形定义为所有源自理想无幻觉回复 \(\mathcal{C}^*(Q)\) 的事实集空间：

\[\mathcal{M}_{\text{truth}}(Q) = \{ \text{Facts}(C^*) \mid C^* \in \mathcal{C}^*(Q) \} \quad (1)\]

由于 \(\mathcal{M}_{\text{truth}}(Q)\) 不可观测，SERC操作性利用通过RAG检索的外部证据所一致的事实子空间来近似它。

为高效执行此投影，我们采用受低密度奇偶校验（LDPC）码启发的图策略。我们不进行密集的穷举验证，而是构建一个稀疏Tanner图，其中多个事实（变量节点）由单个分组验证查询（校验节点）验证。这种稀疏性最小化了验证的计算开销（LLM/RAG调用）。最后，纠正过程模拟置信传播（BP）；一个事实（例如，实体类型）的局部纠正会逻辑传播到相关句子，确保重构文本收敛到全局语义一致性。

## 4 提出方法：SERC框架

我们提出SERC（语义纠错与还原）框架。基于第3节建立的理论基础，SERC实例化了语义解码器。我们将信道模型的抽象组件映射为具体的RAG操作：噪声码字 \(C'\) 被实例化为初始LLM回复 \(R_{\text{init}}\)，奇偶校验约束通过稀疏验证查询实现。如算法1所示，该框架通过三个数学定义的阶段顺序运行，以使回复与真实流形对齐。

### 4.1 阶段1：粗对齐与实体防火墙

该过程从语言模型 \(LM\) 对于用户查询 \(Q\) 生成的初始回复 \(R_{\text{init}}\)（对应噪声观测 \(C'\)）开始：

\[R_{\text{init}} \sim P_{LM}(y \mid Q) \quad (2)\]

标准RAG方法在初始生成遭遇来源混淆（例如，混淆同名人物）时常常失败。从信道编码术语看，这代表同步错误（Synchronization Error）——解码器尝试用错误的码本解码信号。为缓解此问题，我们引入实体防火墙机制。设 \(\mathcal{T}(\cdot)\) 为话题实体提取函数。我们从模型的内部知识（\(T_{\text{model}} = \mathcal{T}(R_{\text{init}})\)）以及通过检索模块 \(\mathcal{R}\) 获得的外部证据（\(T_{\text{rag}} = \mathcal{T}(\mathcal{R}(Q))\)）中提取核心主题实体。防火墙验证这两个实体之间的一致性（详见补充材料1.1中的判断提示）：

\[
R_{\text{init}} = 
\begin{cases}
LM(Q, \mathcal{R}(Q)) & \text{若 } \text{Consistency}(T_{\text{model}}, T_{\text{rag}}) = \text{False} \quad (\text{硬重置}) \\
R_{\text{init}} & \text{否则}
\end{cases}
\quad (3)
\]

如果检测到不匹配，将触发硬重置（Hard Reset），强制模型使用检索到的上下文重新生成基线，从而在细粒度验证之前对齐语义轨迹。

### 4.2 阶段2：事实分解与稀疏验证

图2：语义Tanner图结构。底部节点（变量节点）表示从句子中提取的原子事实，顶部节点（校验节点）表示分组验证查询。这种二分结构实现了高效的稀疏验证。

为进行精细的纠错，我们首先将连续信号 \(R_{\text{init}}\) 分解为离散的语义符号。基线回复 \(R_{\text{init}}\) 被分解为句子集 \(S = \{ s_1, \dots, s_n \}\)。对于每个句子 \(s_k\)，我们使用专用提示提取原子事实子集 \(F_k = \{ f_{k,1}, \dots, f_{k,m_k} \}\)（详见补充材料1.2）。

**Tanner图构建** 我们将验证问题映射为语义Tanner图 \(G = (V, N_c, \mathcal{A})\)，类似于低密度奇偶校验（LDPC）码，其中 \(\mathcal{A}\) 表示连接事实与验证查询的弧集，如图2所示：

**变量节点（\(V\)）：** 表示单个原子事实 \(f_{k,i}\)（底部节点）。

**校验节点（\(N_c\)）：** 表示验证查询（顶部节点）。为优化计算成本，我们采用稀疏验证策略。不独立验证每个事实，而是为每个句子组 \(F_k\) 生成一个综合性查询 \(q_k = \text{GenQ}(F_k)\)，该查询充当校验节点约束（详见补充材料1.3）。

**综合征检测** 使用查询 \(q_k\)，我们通过 \(\mathcal{R}\) 检索外部上下文，并使用骨干模型生成简洁的证据摘要 \(E_k\)。验证

SERC: 基于LDPC思想的语义纠错用于检索增强生成

相似文章

错误编码：多语言语法错误纠正的上下文示例表征检索

HalluSAE：利用稀疏自编码器检测大型语言模型中的幻觉

将幻觉视为异常：通过概率电路进行动态干预

微宏观检索：减少大型语言模型的长文本幻觉

缓解流形偏离：面向可信MLLM解码的不确定性感知子空间矫正

提交意见反馈