CSRP: 通过强化学习结合效率感知奖励进行中文文本纠错的思维链推理

arXiv cs.CL 2026/06/02 04:00 论文

摘要

CSRP提出了一个三阶段框架，结合持续预训练、思维链监督微调和带有效率感知奖励的强化学习，以解决中文语法纠错中的过度纠正问题，在NACGEC基准上取得了最先进的结果。

arXiv:2606.00020v1 公告类型：新摘要：基于大语言模型（LLM）的中文语法纠错（CGEC）系统面临两个关键挑战：通用模型缺乏针对细微语法差异的专门语言先验知识，而基于最大似然估计的监督微调（SFT）无法优化面向精度的指标，导致系统性过度纠正。我们提出了CSRP，这是一个三阶段框架，通过以下方式逐步构建纠错能力：在590万个平衡样本上进行持续预训练（CPT）以内化领域知识；结合显式错误推理的思维链监督微调以提高诊断透明度；以及采用带有新型效率感知奖励的群体相对策略优化，该奖励明确惩罚不必要的编辑。在NACGEC基准上，CSRP取得了最先进的性能，$F_{0.5}$得分为50.99，精确率为57.17，显著优于之前的最佳结果，同时有效缓解了MLE训练模型固有的过度纠正偏差。我们的方法还将CSCD拼写纠正的F1得分提升至59.61，超过GPT-4达5.20个点。全面的消融研究表明，强化学习对齐阶段相对于SFT基线贡献了8%的相对提升，并且这种提升与大规模CPT的贡献正交，验证了显式优化编辑效率对于高质量语法纠错至关重要。我们的代码可在 https://github.com/TW-NLP/ChineseErrorCorrector 获取。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:34

# CSRP：基于强化学习与效率感知奖励的中文文本纠错思维链推理  
来源：https://arxiv.org/html/2606.00020  

卫天¹， 周宇豪¹， 兰曼¹,²  
¹华东师范大学计算机科学与技术学院  
²华东师范大学上海人工智能教育研究院  
\{tianwei, yhzhou\}@stu\.ecnu\.edu\.cn, mlan@cs\.ecnu\.edu\.cn  

###### 摘要  

基于大型语言模型（LLM）的中文语法纠错（CGEC）系统面临两个关键挑战：通用模型缺乏针对细微语法差异的专业语言先验知识，以及使用最大似然估计（MLE）的有监督微调（SFT）无法优化以精确度为核心的指标，从而导致系统性过度纠错。我们提出CSRP，一个三阶段框架，通过持续预训练（CPT）在590万平衡样本上内化领域知识、基于显式错误推理的思维链SFT实现诊断透明度，以及使用一种新颖的、明确惩罚不必要编辑的效率感知奖励进行组相对策略优化，逐步构建纠错能力。在NACGEC基准上，CSRP达到了50.99的F0.5分数和57.17的精确率，显著优于此前最佳结果，同时有效缓解了MLE训练模型固有的过度纠错偏差。我们的方法还将CSCD拼写纠错提升至59.61的F1分数，比GPT-4高出5.20分。全面的消融研究表明，RL对齐阶段相较于SFT基线贡献了8%的相对提升，且这一提升与大规模CPT的贡献正交，验证了针对编辑效率进行显式优化对于高质量语法纠错的必要性。我们的代码已开源在https://github.com/TW-NLP/ChineseErrorCorrector。  

CSRP：基于强化学习与效率感知奖励的中文文本纠错思维链推理  
卫天¹， 周宇豪¹， 兰曼¹,²††thanks:通讯作者。  
¹华东师范大学计算机科学与技术学院  
²华东师范大学上海人工智能教育研究院  
\{tianwei, yhzhou\}@stu\.ecnu\.edu\.cn, mlan@cs\.ecnu\.edu\.cn  

## 1 引言  

参见图1：有监督微调性能瓶颈。  

语法纠错（GEC）的本质在于修复语言偏差，同时严格保留原文的语义忠实性。一个理想的GEC系统应具有高保真度，遵循最小编辑原则，仅在必要时进行干预。然而，尽管大型语言模型（LLMs）凭借其生成能力在中文语法纠错（CGEC）中展示了潜力，但基于有监督微调（SFT）的主流范式已遭遇显著的性能瓶颈，如图1（https://arxiv.org/html/2606.00020#S1.F1）所示。主流模型在权威基准Tian等人 (2025)（https://arxiv.org/html/2606.00020#bib.bib6）上的F0.5分数始终停留在45-46的范围内。我们的研究表明，这一局限源于当前训练范式中两个根本性冲突：  

- **语言先验知识的稀疏性**：通用LLM主要由规范化的预训练语料驱动，缺乏对学习者特定“非规范”错误分布（如音近误用、虚词冗余）的敏感性。缺乏强大的底层语法约束，模型难以在流畅性和语法正确性之间实现精确平衡。  
- **生成中的过度纠错偏差**：SFT中使用的最大似然估计（MLE）目标鼓励模型将输入句子移向其内部分布的高概率区域。因此，当遇到正确或轻微偏离的句子时，模型倾向于进行不必要的释义而非精确纠错。这种行为导致高假阳性率，与最小编辑的核心目标相悖。  

参见图2：提出的CSRP（CPT-SFT-RL）框架概览。  

为应对这些挑战，如图2（https://arxiv.org/html/2606.00020#S1.F2）所示，我们提出CSRP（CPT-SFT-RL）框架，这是一条系统性的流水线，通过知识内化、推理显式化和策略对齐来构建可靠的纠错系统：  

- **第一阶段：平衡持续预训练（CPT）**。我们对590万样本进行大规模CPT，采用通用数据与纠错专用数据8:2的混合比例。此阶段将细粒度的中文语法约束内化到参数空间中，缓解知识稀疏问题。  
- **第二阶段：推理增强SFT**。我们摒弃传统的黑盒映射，通过从高性能教师模型中蒸馏推理路径（推理过程）。这种思维链（CoT）机制引导模型在执行纠错前诊断错误类型，增强透明度。  
- **第三阶段：效率感知策略对齐**。为解决过度纠错挑战，我们引入组相对策略优化（GRPO）算法。我们设计了一个基于相对改进和编辑效率的多维奖励机制。该机制不盲目鼓励流畅性，而是显式奖励那些能减少与目标距离的有效编辑，同时惩罚偏离性的修改。从而，模型学会校准其决策边界，仅当纠错收益超过保真度代价时才执行编辑。  

## 2 相关工作  

### 2.1 纠错范式的演变  

中文文本纠错领域经历了从判别式编码到生成式重构的重大转变。早期中文拼写检查（CSC）研究侧重于将语音和视觉约束集成到基于BERT的编码器中，例如SpellGCN Ji等人 (2021)（https://arxiv.org/html/2606.00020#bib.bib1）、ReaLiSe Xue等人 (2021)（https://arxiv.org/html/2606.00020#bib.bib28）和PHMOSpell Huang等人 (2021)（https://arxiv.org/html/2606.00020#bib.bib2）。后续工作引入了专门的预训练任务和解耦表示以减轻音形混淆，包括PLOME Liu等人 (2021)（https://arxiv.org/html/2606.00020#bib.bib3）、DORM-CSC Liang等人 (2023)（https://arxiv.org/html/2606.00020#bib.bib29）和PTCSpell Wei等人 (2023)（https://arxiv.org/html/2606.00020#bib.bib4）。在大语言模型（LLM）时代，范式已转向序列到序列的重述。ReLM Liu等人 (2024)（https://arxiv.org/html/2606.00020#bib.bib30）将CSC重新概念化为语言建模任务，而C-LLM Li等人 (2024)（https://arxiv.org/html/2606.00020#bib.bib5）探索了逐字符检查。对于中文语法纠错（CGEC），架构已从序列到动作模型和语法增强框架（如SynGEC Zhang等人 (2022)（https://arxiv.org/html/2606.00020#bib.bib31））演变为大规模生成模型，如ChineseErrorCorrector3 Tian等人 (2025)（https://arxiv.org/html/2606.00020#bib.bib6），该模型目前代表了最先进的技术水平（SOTA）。  

### 2.2 知识获取与领域适应  

有效的CGEC需要捕获跨不同领域的复杂错误分布。诸如NACGEC Ma等人 (2022)（https://arxiv.org/html/2606.00020#bib.bib19）等基准为评估面向母语者和学习者的文本奠定了基础。为弥合通用预训练与专用纠错之间的差距，研究人员探索了检索增强生成（RAG）。MTCSC Liang和Zhou (2025)（https://arxiv.org/html/2606.00020#bib.bib10）和RagID Dong等人 (2025)（https://arxiv.org/html/2606.00020#bib.bib32）利用迭代优化和少样本检索来引入外部知识。此外，Cao等人 (2025)（https://arxiv.org/html/2606.00020#bib.bib40）证明了多级结构线索（词汇和句法）对于精确定位错误至关重要。我们的工作通过大规模平衡持续预训练（CPT）内化此类先验知识，实现了纠错能力的自发对齐，同时避免了RAG系统固有的推理延迟 Zhou等人 (2025)（https://arxiv.org/html/2606.00020#bib.bib33）。  

### 2.3 推理、可靠性与策略对齐  

“过度纠错”现象，即模型产生幻觉性编辑，仍然是实际应用中的关键瓶颈。近期的努力集中在增强模型的可解释性和可控性。GEE Song等人 (2024)（https://arxiv.org/html/2606.00020#bib.bib11）和Rationale-based ICD Li等人 (2025)（https://arxiv.org/html/2606.00020#bib.bib34）利用思维链（CoT）和解释性信息来指导纠错过程。ScholarGEC Kong等人 (2025)（https://arxiv.org/html/2606.00020#bib.bib35）进一步将其扩展到需要极高精确度的学术领域。尽管取得了这些进展，但由于GEC目标的非可微性质，将LLM与像F0.5这样的高精度指标对齐仍然具有挑战性。基于最大似然估计（MLE）的传统SFT通常无法校准“编辑与否”的决策边界。我们的框架通过利用组相对策略优化（GRPO）来显式优化相对改进和编辑效率，从而解决这个问题。这种方法超越了单纯的分数追逐，将模型策略与“最小干预”的语言原则对齐，并有效缓解了先前基于LLM的系统中观察到的过度纠错偏差 Qiao等人 (2025)（https://arxiv.org/html/2606.00020#bib.bib36）； Li和Wang (2024)（https://arxiv.org/html/2606.00020#bib.bib37）。  

## 3 方法论  

参见图3：CPT数据处理流程。  

在本节中，我们介绍CSRP框架，这是一个系统性的三阶段范式，旨在将通用大语言模型（LLM）转变为高精度的中文语法纠错（CGEC）系统。该流水线依次经历：(i) 用于知识内化的平衡持续预训练；(ii) 用于诊断推理的推理增强SFT；以及 (iii) 用于决策边界校准的效率感知策略对齐。  

### 3.1 第一阶段：平衡持续预训练  

标准LLM通常缺乏关于学习者特定错误分布的知识稀疏性。为内化语言先验知识，我们在一个精炼的590万样本语料库上进行持续预训练（CPT）。  

#### 3.1.1 数据精炼与统计  

我们从四个主要来源整理了一个全面的数据集D_CPT：wiki-zh-25、wiki-zh-23、cci2和lang8 Zhao等人 (2018)（https://arxiv.org/html/2606.00020#bib.bib41）+ HSK Zhang (2009)（https://arxiv.org/html/2606.00020#bib.bib14）。如图3（https://arxiv.org/html/2606.00020#S3.F3）所示，我们实施了严格的精炼流水线，包括基于MinHash的去重和启发式质量过滤。该过程将原始数据从7,287,295个样本缩减至5,901,700个高质量样本。值得注意的是，wiki-zh-23因极端冗余而被排除，而cci2和lang8+HSK子集则被修剪以确保高保真度的语言模式。  

#### 3.1.2 通用与纠错平衡混合  

为减轻通用推理能力的灾难性遗忘，我们采用平衡混合策略。受Wen等人 (2023)（https://arxiv.org/html/2606.00020#bib.bib13）中领域专用预训练见解的启发，我们使用通用数据与纠错专用数据8:2的比例。这大约对应470万通用样本（来自wiki-zh-25和cci2）和118万纠错样本（来自lang8+HSK）。目标是最小化负对数似然：L_CPT(θ) = -E_{x∼D_CPT} [Σ_t log P_θ(x_t | x_... 格式]  

值得注意的是，Qwen-Plus本身在直接用作纠错器时表现出严重的过度纠错倾向；正是因为这个原因，其角色严格限于在固定的源S和金标准目标G之间生成中间的*推理路径*，而不是最终纠错。  

- **评估层面**：由三名具有相关领域专业知识的人工标注者针对1000个随机抽样的推理路径进行双盲人工研究，确认其中95.2%在语言上是忠实的（Cohen’s κ=0.81）。这证明了高标注者间一致性和近乎完美的推理路径可靠性。完整的标注协议和质量控制细节见附录[G]（https://arxiv.org/html/2606.00020#A7）。  

### 3.3 第三阶段：效率感知策略对齐  

CGEC中最持久的挑战是过度纠错，即模型不必要地改写正确的文本。我们通过GRPO校准决策边界来解决这个问题。  

#### 3.3.1 数学奖励建模  

我们定义一个效率感知奖励（EAR）函数。令S、P、G分别为源、预测和地面真值，d(·,·)为莱文斯坦距离。我们导出两个核心指标：  
(1) 相对改进（RI）：RI = (d(S,G) - d(P,G)) / (d(S,G) + ε) (公式3)  
(2) 编辑效率比率（η）：作为保真度约束，惩罚相对于所获改进的过度编辑：  
η = (d(S,G) - d(P,G)) / (d(S,P) + ε) (公式4)  
其中ε=10^{-6}。高η表示“手术刀般的精确”。  

#### 3.3.2 奖励函数公式化  

奖励R_EAR提供不同的信号，使模型与最小干预原则对齐：  

R_EAR = 
- 10.0, 如果 RI > 0.99
- 2.0 + 5RI·max(0, η), 如果 RI > 0
- -3.0, 如果 RI ≤ 0
- -2.0, 如果 P = ∅ (公式5)

对于已经正确的源句子（d(S,G)=0），上述情况简化为二元信号：恒等映射（d(S,P)=0，即RI=0）获得+2.0，奖励模型保留良好形成的文本；任何编辑（d(S,P)>0，产生RI≤0）获得-2.0，直接惩罚对正确输入的过度纠错。此显式信号是RL训练后观察到的假阳性率降低的主要驱动力。  

#### 3.3.3 通过GRPO进行策略优化  

GRPO通过对比每个提示S的N个补全{P_1, ..., P_N}来优化策略：  

J(θ) = (1/N) * Σ_{i=1}^{N} [ (R_i - R̄) / σ_R * log π_θ(P_i|S) - β D_KL(π_θ || π_ref) ] (公式6)

其中R̄和σ_R是组奖励的均值和标准差。该机制鼓励模型偏好具有最高编辑-改进比的纠错，有效遏制过度纠错偏差。  

## 4 实验  

在本节中，我们进行大量实验来评估CSRP框架的有效性。我们关注两个主要任务：针对母语者文本的语法纠错（GEC）和中文拼写检查（CSC）。通过与最先进的基线进行全面比较以及系统的消融研究，我们证明了我们的三阶段课程学习

CSRP: 通过强化学习结合效率感知奖励进行中文文本纠错的思维链推理

相似文章

ReCrit：面向科学批评推理的过渡感知强化学习

ICRL：通过强化学习内化自我批判

OThink-SRR1：用强化学习为大模型实现搜索、精炼与推理

ACIL: 用于上下文学习的自动Chain-of-Thought

基于代理上下文的链式思维微调长上下文推理

提交意见反馈