CSRP: 通过强化学习结合效率感知奖励进行中文文本纠错的思维链推理
摘要
CSRP提出了一个三阶段框架,结合持续预训练、思维链监督微调和带有效率感知奖励的强化学习,以解决中文语法纠错中的过度纠正问题,在NACGEC基准上取得了最先进的结果。
arXiv:2606.00020v1 公告类型:新
摘要:基于大语言模型(LLM)的中文语法纠错(CGEC)系统面临两个关键挑战:通用模型缺乏针对细微语法差异的专门语言先验知识,而基于最大似然估计的监督微调(SFT)无法优化面向精度的指标,导致系统性过度纠正。我们提出了CSRP,这是一个三阶段框架,通过以下方式逐步构建纠错能力:在590万个平衡样本上进行持续预训练(CPT)以内化领域知识;结合显式错误推理的思维链监督微调以提高诊断透明度;以及采用带有新型效率感知奖励的群体相对策略优化,该奖励明确惩罚不必要的编辑。在NACGEC基准上,CSRP取得了最先进的性能,$F_{0.5}$得分为50.99,精确率为57.17,显著优于之前的最佳结果,同时有效缓解了MLE训练模型固有的过度纠正偏差。我们的方法还将CSCD拼写纠正的F1得分提升至59.61,超过GPT-4达5.20个点。全面的消融研究表明,强化学习对齐阶段相对于SFT基线贡献了8%的相对提升,并且这种提升与大规模CPT的贡献正交,验证了显式优化编辑效率对于高质量语法纠错至关重要。我们的代码可在 https://github.com/TW-NLP/ChineseErrorCorrector 获取。
查看缓存全文
缓存时间: 2026/06/02 15:34
# CSRP:基于强化学习与效率感知奖励的中文文本纠错思维链推理
来源:https://arxiv.org/html/2606.00020
卫天¹, 周宇豪¹, 兰曼¹,²
¹华东师范大学计算机科学与技术学院
²华东师范大学上海人工智能教育研究院
\{tianwei, yhzhou\}@stu\.ecnu\.edu\.cn, mlan@cs\.ecnu\.edu\.cn
###### 摘要
基于大型语言模型(LLM)的中文语法纠错(CGEC)系统面临两个关键挑战:通用模型缺乏针对细微语法差异的专业语言先验知识,以及使用最大似然估计(MLE)的有监督微调(SFT)无法优化以精确度为核心的指标,从而导致系统性过度纠错。我们提出CSRP,一个三阶段框架,通过持续预训练(CPT)在590万平衡样本上内化领域知识、基于显式错误推理的思维链SFT实现诊断透明度,以及使用一种新颖的、明确惩罚不必要编辑的效率感知奖励进行组相对策略优化,逐步构建纠错能力。在NACGEC基准上,CSRP达到了50.99的F0.5分数和57.17的精确率,显著优于此前最佳结果,同时有效缓解了MLE训练模型固有的过度纠错偏差。我们的方法还将CSCD拼写纠错提升至59.61的F1分数,比GPT-4高出5.20分。全面的消融研究表明,RL对齐阶段相较于SFT基线贡献了8%的相对提升,且这一提升与大规模CPT的贡献正交,验证了针对编辑效率进行显式优化对于高质量语法纠错的必要性。我们的代码已开源在https://github.com/TW-NLP/ChineseErrorCorrector。
CSRP:基于强化学习与效率感知奖励的中文文本纠错思维链推理
卫天¹, 周宇豪¹, 兰曼¹,²††thanks:通讯作者。
¹华东师范大学计算机科学与技术学院
²华东师范大学上海人工智能教育研究院
\{tianwei, yhzhou\}@stu\.ecnu\.edu\.cn, mlan@cs\.ecnu\.edu\.cn
## 1 引言
参见图1:有监督微调性能瓶颈。
语法纠错(GEC)的本质在于修复语言偏差,同时严格保留原文的语义忠实性。一个理想的GEC系统应具有高保真度,遵循最小编辑原则,仅在必要时进行干预。然而,尽管大型语言模型(LLMs)凭借其生成能力在中文语法纠错(CGEC)中展示了潜力,但基于有监督微调(SFT)的主流范式已遭遇显著的性能瓶颈,如图1(https://arxiv.org/html/2606.00020#S1.F1)所示。主流模型在权威基准Tian等人 (2025)(https://arxiv.org/html/2606.00020#bib.bib6)上的F0.5分数始终停留在45-46的范围内。我们的研究表明,这一局限源于当前训练范式中两个根本性冲突:
- **语言先验知识的稀疏性**:通用LLM主要由规范化的预训练语料驱动,缺乏对学习者特定“非规范”错误分布(如音近误用、虚词冗余)的敏感性。缺乏强大的底层语法约束,模型难以在流畅性和语法正确性之间实现精确平衡。
- **生成中的过度纠错偏差**:SFT中使用的最大似然估计(MLE)目标鼓励模型将输入句子移向其内部分布的高概率区域。因此,当遇到正确或轻微偏离的句子时,模型倾向于进行不必要的释义而非精确纠错。这种行为导致高假阳性率,与最小编辑的核心目标相悖。
参见图2:提出的CSRP(CPT-SFT-RL)框架概览。
为应对这些挑战,如图2(https://arxiv.org/html/2606.00020#S1.F2)所示,我们提出CSRP(CPT-SFT-RL)框架,这是一条系统性的流水线,通过知识内化、推理显式化和策略对齐来构建可靠的纠错系统:
- **第一阶段:平衡持续预训练(CPT)**。我们对590万样本进行大规模CPT,采用通用数据与纠错专用数据8:2的混合比例。此阶段将细粒度的中文语法约束内化到参数空间中,缓解知识稀疏问题。
- **第二阶段:推理增强SFT**。我们摒弃传统的黑盒映射,通过从高性能教师模型中蒸馏推理路径(推理过程)。这种思维链(CoT)机制引导模型在执行纠错前诊断错误类型,增强透明度。
- **第三阶段:效率感知策略对齐**。为解决过度纠错挑战,我们引入组相对策略优化(GRPO)算法。我们设计了一个基于相对改进和编辑效率的多维奖励机制。该机制不盲目鼓励流畅性,而是显式奖励那些能减少与目标距离的有效编辑,同时惩罚偏离性的修改。从而,模型学会校准其决策边界,仅当纠错收益超过保真度代价时才执行编辑。
## 2 相关工作
### 2.1 纠错范式的演变
中文文本纠错领域经历了从判别式编码到生成式重构的重大转变。早期中文拼写检查(CSC)研究侧重于将语音和视觉约束集成到基于BERT的编码器中,例如SpellGCN Ji等人 (2021)(https://arxiv.org/html/2606.00020#bib.bib1)、ReaLiSe Xue等人 (2021)(https://arxiv.org/html/2606.00020#bib.bib28)和PHMOSpell Huang等人 (2021)(https://arxiv.org/html/2606.00020#bib.bib2)。后续工作引入了专门的预训练任务和解耦表示以减轻音形混淆,包括PLOME Liu等人 (2021)(https://arxiv.org/html/2606.00020#bib.bib3)、DORM-CSC Liang等人 (2023)(https://arxiv.org/html/2606.00020#bib.bib29)和PTCSpell Wei等人 (2023)(https://arxiv.org/html/2606.00020#bib.bib4)。在大语言模型(LLM)时代,范式已转向序列到序列的重述。ReLM Liu等人 (2024)(https://arxiv.org/html/2606.00020#bib.bib30)将CSC重新概念化为语言建模任务,而C-LLM Li等人 (2024)(https://arxiv.org/html/2606.00020#bib.bib5)探索了逐字符检查。对于中文语法纠错(CGEC),架构已从序列到动作模型和语法增强框架(如SynGEC Zhang等人 (2022)(https://arxiv.org/html/2606.00020#bib.bib31))演变为大规模生成模型,如ChineseErrorCorrector3 Tian等人 (2025)(https://arxiv.org/html/2606.00020#bib.bib6),该模型目前代表了最先进的技术水平(SOTA)。
### 2.2 知识获取与领域适应
有效的CGEC需要捕获跨不同领域的复杂错误分布。诸如NACGEC Ma等人 (2022)(https://arxiv.org/html/2606.00020#bib.bib19)等基准为评估面向母语者和学习者的文本奠定了基础。为弥合通用预训练与专用纠错之间的差距,研究人员探索了检索增强生成(RAG)。MTCSC Liang和Zhou (2025)(https://arxiv.org/html/2606.00020#bib.bib10)和RagID Dong等人 (2025)(https://arxiv.org/html/2606.00020#bib.bib32)利用迭代优化和少样本检索来引入外部知识。此外,Cao等人 (2025)(https://arxiv.org/html/2606.00020#bib.bib40)证明了多级结构线索(词汇和句法)对于精确定位错误至关重要。我们的工作通过大规模平衡持续预训练(CPT)内化此类先验知识,实现了纠错能力的自发对齐,同时避免了RAG系统固有的推理延迟 Zhou等人 (2025)(https://arxiv.org/html/2606.00020#bib.bib33)。
### 2.3 推理、可靠性与策略对齐
“过度纠错”现象,即模型产生幻觉性编辑,仍然是实际应用中的关键瓶颈。近期的努力集中在增强模型的可解释性和可控性。GEE Song等人 (2024)(https://arxiv.org/html/2606.00020#bib.bib11)和Rationale-based ICD Li等人 (2025)(https://arxiv.org/html/2606.00020#bib.bib34)利用思维链(CoT)和解释性信息来指导纠错过程。ScholarGEC Kong等人 (2025)(https://arxiv.org/html/2606.00020#bib.bib35)进一步将其扩展到需要极高精确度的学术领域。尽管取得了这些进展,但由于GEC目标的非可微性质,将LLM与像F0.5这样的高精度指标对齐仍然具有挑战性。基于最大似然估计(MLE)的传统SFT通常无法校准“编辑与否”的决策边界。我们的框架通过利用组相对策略优化(GRPO)来显式优化相对改进和编辑效率,从而解决这个问题。这种方法超越了单纯的分数追逐,将模型策略与“最小干预”的语言原则对齐,并有效缓解了先前基于LLM的系统中观察到的过度纠错偏差 Qiao等人 (2025)(https://arxiv.org/html/2606.00020#bib.bib36); Li和Wang (2024)(https://arxiv.org/html/2606.00020#bib.bib37)。
## 3 方法论
参见图3:CPT数据处理流程。
在本节中,我们介绍CSRP框架,这是一个系统性的三阶段范式,旨在将通用大语言模型(LLM)转变为高精度的中文语法纠错(CGEC)系统。该流水线依次经历:(i) 用于知识内化的平衡持续预训练;(ii) 用于诊断推理的推理增强SFT;以及 (iii) 用于决策边界校准的效率感知策略对齐。
### 3.1 第一阶段:平衡持续预训练
标准LLM通常缺乏关于学习者特定错误分布的知识稀疏性。为内化语言先验知识,我们在一个精炼的590万样本语料库上进行持续预训练(CPT)。
#### 3.1.1 数据精炼与统计
我们从四个主要来源整理了一个全面的数据集D_CPT:wiki-zh-25、wiki-zh-23、cci2和lang8 Zhao等人 (2018)(https://arxiv.org/html/2606.00020#bib.bib41)+ HSK Zhang (2009)(https://arxiv.org/html/2606.00020#bib.bib14)。如图3(https://arxiv.org/html/2606.00020#S3.F3)所示,我们实施了严格的精炼流水线,包括基于MinHash的去重和启发式质量过滤。该过程将原始数据从7,287,295个样本缩减至5,901,700个高质量样本。值得注意的是,wiki-zh-23因极端冗余而被排除,而cci2和lang8+HSK子集则被修剪以确保高保真度的语言模式。
#### 3.1.2 通用与纠错平衡混合
为减轻通用推理能力的灾难性遗忘,我们采用平衡混合策略。受Wen等人 (2023)(https://arxiv.org/html/2606.00020#bib.bib13)中领域专用预训练见解的启发,我们使用通用数据与纠错专用数据8:2的比例。这大约对应470万通用样本(来自wiki-zh-25和cci2)和118万纠错样本(来自lang8+HSK)。目标是最小化负对数似然:L_CPT(θ) = -E_{x∼D_CPT} [Σ_t log P_θ(x_t | x_... 格式]
值得注意的是,Qwen-Plus本身在直接用作纠错器时表现出严重的过度纠错倾向;正是因为这个原因,其角色严格限于在固定的源S和金标准目标G之间生成中间的*推理路径*,而不是最终纠错。
- **评估层面**:由三名具有相关领域专业知识的人工标注者针对1000个随机抽样的推理路径进行双盲人工研究,确认其中95.2%在语言上是忠实的(Cohen’s κ=0.81)。这证明了高标注者间一致性和近乎完美的推理路径可靠性。完整的标注协议和质量控制细节见附录[G](https://arxiv.org/html/2606.00020#A7)。
### 3.3 第三阶段:效率感知策略对齐
CGEC中最持久的挑战是过度纠错,即模型不必要地改写正确的文本。我们通过GRPO校准决策边界来解决这个问题。
#### 3.3.1 数学奖励建模
我们定义一个效率感知奖励(EAR)函数。令S、P、G分别为源、预测和地面真值,d(·,·)为莱文斯坦距离。我们导出两个核心指标:
(1) 相对改进(RI):RI = (d(S,G) - d(P,G)) / (d(S,G) + ε) (公式3)
(2) 编辑效率比率(η):作为保真度约束,惩罚相对于所获改进的过度编辑:
η = (d(S,G) - d(P,G)) / (d(S,P) + ε) (公式4)
其中ε=10^{-6}。高η表示“手术刀般的精确”。
#### 3.3.2 奖励函数公式化
奖励R_EAR提供不同的信号,使模型与最小干预原则对齐:
R_EAR =
- 10.0, 如果 RI > 0.99
- 2.0 + 5RI·max(0, η), 如果 RI > 0
- -3.0, 如果 RI ≤ 0
- -2.0, 如果 P = ∅ (公式5)
对于已经正确的源句子(d(S,G)=0),上述情况简化为二元信号:恒等映射(d(S,P)=0,即RI=0)获得+2.0,奖励模型保留良好形成的文本;任何编辑(d(S,P)>0,产生RI≤0)获得-2.0,直接惩罚对正确输入的过度纠错。此显式信号是RL训练后观察到的假阳性率降低的主要驱动力。
#### 3.3.3 通过GRPO进行策略优化
GRPO通过对比每个提示S的N个补全{P_1, ..., P_N}来优化策略:
J(θ) = (1/N) * Σ_{i=1}^{N} [ (R_i - R̄) / σ_R * log π_θ(P_i|S) - β D_KL(π_θ || π_ref) ] (公式6)
其中R̄和σ_R是组奖励的均值和标准差。该机制鼓励模型偏好具有最高编辑-改进比的纠错,有效遏制过度纠错偏差。
## 4 实验
在本节中,我们进行大量实验来评估CSRP框架的有效性。我们关注两个主要任务:针对母语者文本的语法纠错(GEC)和中文拼写检查(CSC)。通过与最先进的基线进行全面比较以及系统的消融研究,我们证明了我们的三阶段课程学习相似文章
ReCrit:面向科学批评推理的过渡感知强化学习
ReCrit 提出了一种面向科学批评推理的过渡感知强化学习框架,将初始到批评行为分解为四个象限(Correction、Sycophancy、Robustness、Boundary),并使用动态异步展开。它在多个科学基准上显著提升了 Qwen 模型的批评准确性。
ICRL:通过强化学习内化自我批判
本文介绍了ICRL框架,该框架联合训练求解器和批判器,通过强化学习内化批判指导,使求解器无需外部批判即可自我改进。它使用分布校准和角色分组优势估计,在智能体和数学推理任务上比GRPO提高了6-7个点。
OThink-SRR1:用强化学习为大模型实现搜索、精炼与推理
OThink-SRR1 提出迭代式“搜索-精炼-推理”框架,通过 GRPO-IR 强化学习降低检索噪声与 token 开销,同时提升多跳问答准确率。
ACIL: 用于上下文学习的自动Chain-of-Thought
本文介绍了ACIL,一种自动Chain-of-Thought框架,通过生成和修剪推理链来增强上下文学习,从而提升LLM在复杂任务上的表现。
基于代理上下文的链式思维微调长上下文推理
提出ProxyCoT训练框架,通过先在小代理上下文中获取链式思维推理轨迹(通过强化学习或蒸馏),再通过监督微调将其锚定到完整长上下文中,从而提升大语言模型的长上下文推理能力。实验表明,该方法在降低计算成本的同时持续优于基线。