CoCoGEC：用于鲁棒语法错误纠正的反事实生成

arXiv cs.CL 2026/06/16 04:00 论文

摘要

提出CoCoGEC，一种反事实生成框架，通过改变GEC训练数据中与错误无关的上下文来提升模型鲁棒性，在扰动基准上取得了显著的F0.5提升。

arXiv:2606.15069v1 公告类型：新摘要：语法错误纠正（GEC）系统通常在GEC基准上进行训练和评估，但一旦周围上下文发生轻微扰动或扩展，其性能往往会急剧下降。这表明现有的GEC模型通常无法理解变化上下文中的错误模式。本文深入研究了GEC任务中的反事实情况，其中上下文的细微变化可能导致标签翻转问题。我们提出了CoCoGEC，一种反事实生成框架，能够创建训练实例的副本并改变与错误无关的上下文。我们的框架通过以下方式系统生成反事实：（1）生成句内和句间反事实，通过改变词级和句子级上下文来保持原始实例的错误模式和句法；（2）通过选择标签翻转且GEC互信息（MI）系数高的实例来修正生成的反事实。大量实验表明，我们的方法显著提高了GEC模型的稳定性，超过了一系列数据增强基线。特别是，在扰动后的BEA-19*、CoNLL-14*和TEM-8*数据集上，我们的方法分别实现了+9.9、+11.3和+20.8个绝对F0.5点的提升。我们的代码已发布在https://github.com/Quinnok/CoCoGEC

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:45

# CoCoGEC：面向鲁棒语法纠错的反事实生成
来源：https://arxiv.org/html/2606.15069
钱宇旺，王晓曼，梁媛媛，李欣远，兰韵诗
华东师范大学
\{wangqianyu, xmwang, leonyuany, xyli\}@stu\.ecnu\.edu\.cn, yslan@dase\.ecnu\.edu\.cn

######  摘要
语法纠错（GEC）系统通常基于GEC基准进行训练和评估，但一旦周围上下文发生轻微扰动或扩展，其性能往往会急剧下降。这表明现有GEC模型通常无法理解变化上下文中的错误模式。在本文中，我们深入研究了GEC任务的反事实情况，即上下文的细微变化可能导致标签翻转问题。我们提出CoCoGEC，一个反事实生成框架，通过创建训练实例的副本并改变其中与错误无关的上下文。我们的框架系统性地生成反事实，具体通过：（1）生成句子内部和句子间反事实，通过改变词级和句级上下文，保持原始实例的错误模式和句法；（2）通过选择标签翻转且具有高GEC互信息系数的实例来修正生成的反事实。大量实验表明，我们的方法显著提高了GEC模型的稳定性，优于一组数据增强基线。特别是在经过扰动的BEA-19*、CoNLL-14*和TEM-8*数据集上，可以实现绝对$F_{0.5}$增益分别提高+9.9、+11.3和+20.8个点。我们的代码已发布在https://github.com/Quinnok/CoCoGEC。

CoCoGEC：面向鲁棒语法纠错的反事实生成
钱宇旺，王晓曼，梁媛媛，李欣远，兰韵诗††thanks:通讯作者
华东师范大学
\{wangqianyu, xmwang, leonyuany, xyli\}@stu\.ecnu\.edu\.cn, yslan@dase\.ecnu\.edu\.cn

## 1  引言

语法纠错（GEC）旨在自动检测并纠正文本中的语法错误，支持智能写作助手和计算机辅助语言学习等应用。近年来，它吸引了学术界和工业界越来越多的关注(Katinskaia and Yangarber,2023 (https://arxiv.org/html/2606.15069#bib.bib43),2024 (https://arxiv.org/html/2606.15069#bib.bib45); Liet al\.,2025 (https://arxiv.org/html/2606.15069#bib.bib46); Kovalchuket al\.,2025 (https://arxiv.org/html/2606.15069#bib.bib47))。然而，我们观察到训练良好的GEC模型与其在现实世界中的应用之间存在显著差距。

参考图注Figure 1: CoCoGEC的动机。(a) 标准基准与真实世界输入之间的上下文偏移。(b) 在GPT-4扰动下TEM-8的鲁棒性下降。(c) 两种类型反事实的示例说明。

Figure1 (https://arxiv.org/html/2606.15069#S1.F1)(a)展示了BEA-19任务中的一个示例，其中在“Discovery learning”的上下文中，“least”应纠正为“most”，“facilitate”应纠正为“facilitating”。虽然GPT-4在标准GEC基准上正确修改了该句子，但GEC模型在遇到真实世界中多样化上下文中出现类似错误时常常失败。例如，在一篇关于“Active participation”的长文中，同样的错误短语再次出现，但GPT-4未作改动，从而表现出纠正不足的错误。为了量化这种鲁棒性差距，我们进行了初步实验。我们通过两种增强方法生成“真实世界”数据：（1）词级扰动，对TEM-8(Yang,2017 (https://arxiv.org/html/2606.15069#bib.bib97))测试句子中的随机词符进行修改；（2）句级扰动，通过随机组合测试集中的句子来构建111初步实验的实施细节见附录A (https://arxiv.org/html/2606.15069#A1)。如图1 (https://arxiv.org/html/2606.15069#S1.F1)(b)所示，原始GEC数据与“真实世界”数据之间存在明显的性能下降，尤其是句级扰动。

先前的研究(Zhanget al\.,2023 (https://arxiv.org/html/2606.15069#bib.bib64); Wanget al\.,2024a (https://arxiv.org/html/2606.15069#bib.bib52))已揭示当前GEC模型易受看似无害的扰动影响。但这些研究主要关注基于噪声的攻击或广泛的增强，而非解释那些从根本上影响GEC模型的潜在扰动。例如，Wanet al\. (https://arxiv.org/html/2606.15069#bib.bib49)(2020 (https://arxiv.org/html/2606.15069#bib.bib49))和Parket al\. (https://arxiv.org/html/2606.15069#bib.bib71)(2023 (https://arxiv.org/html/2606.15069#bib.bib71))使用噪声注入，Lichtargeet al\. (https://arxiv.org/html/2606.15069#bib.bib72)(2019 (https://arxiv.org/html/2606.15069#bib.bib72))和Stahlberg and Kumar (https://arxiv.org/html/2606.15069#bib.bib73)(2021 (https://arxiv.org/html/2606.15069#bib.bib73))生成伪语料，Wanget al\. (https://arxiv.org/html/2606.15069#bib.bib52)(2024a (https://arxiv.org/html/2606.15069#bib.bib52))和Li and Lan (https://arxiv.org/html/2606.15069#bib.bib74)(2025 (https://arxiv.org/html/2606.15069#bib.bib74))提出上下文增强。这些方法扩展或重新分配了训练数据，但扰动通常是随机或粗略控制的，限制了它们解释性能差距的能力。

在本文中，我们通过以下问题解决对词级和句级扰动的鲁棒性：我们如何让GEC模型更关注错误模式，同时忽略变化的上下文？为此，我们提出了一种新颖的CoCoGEC方法，其灵感来自反事实分析。CoCoGEC背后的直觉是创建训练实例的副本，并改变其中与错误无关的上下文。我们识别了GEC数据的两种解耦反事实类型，旨在改变词级和句级上下文而不影响句子中的原始错误模式，但可能混淆GEC模型的预测。我们在图1 (https://arxiv.org/html/2606.15069#S1.F1)(c)中展示了“反事实”GEC。通过这些反事实，GEC模型在学习如何纠正句子时，将更侧重于错误模式。CoCoGEC使用大语言模型（LLM）生成跨度控制的句子内部变体，替换与错误无关的跨度，同时保持黄金纠正编辑的有效性。它还通过附加连贯、无错误的前缀和后缀来构建句子间变体，以模拟篇章级别的上下文偏移。我们强制执行编辑级别的保真度约束以过滤无效候选，然后使用GEC互信息分数对剩余的反事实进行排序，并保留最具挑战性的反事实进行增强。实验结果一致验证了CoCoGEC能提高GEC模型的鲁棒性。

本研究的主要贡献如下：

- •据我们所知，这是首次通过三个准则刻画潜在扰动来探索GEC任务反事实的研究。
- •我们引入了CoCoGEC，一个为GEC上下文量身定制的反事实生成流程，系统性地构建句子内部和句子间变体，而不影响原始错误模式，但可能混淆GEC模型的预测。
- •我们提出了一种新颖的GEC互信息系数，用于捕捉变化上下文与模型预测之间的依赖关系，以识别高质量的反事实。
- •我们在RobustGEC基准上证明，CoCoGEC在句子内部和句子间扰动下均能持续提高鲁棒性，同时不牺牲标准测试环境下的性能。

## 2  相关工作

#### 鲁棒GEC。
现代GEC系统主要分为序列到序列生成(Vaswaniet al\.,2017 (https://arxiv.org/html/2606.15069#bib.bib14); Junczys-Dowmuntet al\.,2018 (https://arxiv.org/html/2606.15069#bib.bib27))、序列到编辑纠正(Awasthiet al\.,2019 (https://arxiv.org/html/2606.15069#bib.bib28); Stahlberg and Kumar,2020 (https://arxiv.org/html/2606.15069#bib.bib29); Omelianchuket al\.,2020 (https://arxiv.org/html/2606.15069#bib.bib16); Qorib and Ng,2023 (https://arxiv.org/html/2606.15069#bib.bib95))（包括混合检测-纠正变体(Liet al\.,2023 (https://arxiv.org/html/2606.15069#bib.bib65); Li and Wang,2024 (https://arxiv.org/html/2606.15069#bib.bib89))），以及近期使用提示或轻监督的基于LLM的流程(Loemet al\.,2023 (https://arxiv.org/html/2606.15069#bib.bib58); Coyneet al\.,2023 (https://arxiv.org/html/2606.15069#bib.bib59); Katinskaia and Yangarber,2024 (https://arxiv.org/html/2606.15069#bib.bib45); Tanget al\.,2024 (https://arxiv.org/html/2606.15069#bib.bib104))。尽管在基准上表现强劲，但现有模型在遇到小的上下文偏移时可能变得脆弱，这推动了面向鲁棒性的训练和数据构建。

鲁棒性通常沿着两个互补方向追求。模型中心的方法通过明确正则化不变性来提高稳定性——例如通过对抗目标(Danget al\.,2021 (https://arxiv.org/html/2606.15069#bib.bib40))、蒸馏风格约束(Xiaet al\.,2022 (https://arxiv.org/html/2606.15069#bib.bib41))，或基于一致性的后训练（如RobustGEC/TemplateGEC/CLEME2.0/CSA）(Zhanget al\.,2023 (https://arxiv.org/html/2606.15069#bib.bib64); Liet al\.,2023 (https://arxiv.org/html/2606.15069#bib.bib65); Yeet al\.,2024 (https://arxiv.org/html/2606.15069#bib.bib57); Tanget al\.,2023 (https://arxiv.org/html/2606.15069#bib.bib23))。数据中心的方法则通过噪声注入(Solymanet al\.,2023 (https://arxiv.org/html/2606.15069#bib.bib26); Sunet al\.,2023 (https://arxiv.org/html/2606.15069#bib.bib25))、回译(Fanget al\.,2023 (https://arxiv.org/html/2606.15069#bib.bib22))，以及上下文或基于编辑的增强(Wanget al\.,2024a (https://arxiv.org/html/2606.15069#bib.bib52); Yeet al\.,2023 (https://arxiv.org/html/2606.15069#bib.bib50))来合成训练对，有时与面向鲁棒性的标注或课程学习相结合(Li and Lan,2025 (https://arxiv.org/html/2606.15069#bib.bib74); Zhanget al\.,2025 (https://arxiv.org/html/2606.15069#bib.bib107))，从而拓宽监督信号。然而，这些增强主要目标是错误多样性或重加权，不加区分的合成数据甚至可能降低GEC性能(Parket al\.,2023 (https://arxiv.org/html/2606.15069#bib.bib71))。相比之下，我们的方法是数据中心的：我们通过编辑子集约束$E^\{\prime\}\subseteq E$生成上下文解耦的反事实，以针对上下文鲁棒性，并且它们可以与各种GEC主干网络一起使用。

#### 超越GEC的反事实分析。
反事实数据增强（CDA）通过生成保持或系统修改标签的受控扰动来提高鲁棒性，鼓励模型依赖不变特征并泛化到分布外数据(Wanget al\.,2024b (https://arxiv.org/html/2606.15069#bib.bib108); Jianget al\.,2024 (https://arxiv.org/html/2606.15069#bib.bib109))。近期进展主要来自增强生成的可控性和标签保真度：基于扩散的框架为鲁棒合成和迁移提供了强大机制(Xinet al\.,2024 (https://arxiv.org/html/2606.15069#bib.bib75); Chenet al\.,2024 (https://arxiv.org/html/2606.15069#bib.bib79); Baeet al\.,2025 (https://arxiv.org/html/2606.15069#bib.bib80); Wang and Wan,2022 (https://arxiv.org/html/2606.15069#bib.bib78))，而优化驱动的公式通过强化学习、信息瓶颈和对比目标来强制不变性(Chenet al\.,2021 (https://arxiv.org/html/2606.15069#bib.bib83); Sreedharet al\.,2025 (https://arxiv.org/html/2606.15069#bib.bib90); Changet al\.,2024 (https://arxiv.org/html/2606.15069#bib.bib56); Choiet al\.,2022 (https://arxiv.org/html/2606.15069#bib.bib84))。与此同时，反事实已从基于规则的编辑转向更可控的生成流程，包括蒸馏和LLM驱动的合成(Chenet al\.,2023b (https://arxiv.org/html/2606.15069#bib.bib51); Youssefet al\.,2024 (https://arxiv.org/html/2606.15069#bib.bib91); Howardet al\.,2022 (https://arxiv.org/html/2606.15069#bib.bib36); Trevisoet al\.,2023 (https://arxiv.org/html/2606.15069#bib.bib87); Zhouet al\.,2023 (https://arxiv.org/html/2606.15069#bib.bib88))，以及面向解释的设计，提高了可解释性和忠实度(Yanget al\.,2024 (https://arxiv.org/html/2606.15069#bib.bib85); Anet al\.,2025 (https://arxiv.org/html/2606.15069#bib.bib86))。总的来说，这些研究为构建上下文不变的NLP模型提供了广泛工具，但它们侧重于分类任务，使得结构预测和GEC的反事实生成相对未被探索。我们的工作将CDA引入GEC，通过设计针对错误纠正的上下文反事实，而非判别式设置中常用的标签翻转反事实。

## 3  方法

参考图注Figure 2: CoCoGEC概览：我们生成跨度控制的句子内部变体，并附加连贯的前缀/后缀以形成长上下文反事实，然后通过编辑集一致性进行过滤，并通过GEC互信息进行排序，以保留最具混淆性但有效的增强。

### 3.1  GEC反事实的定义

现有研究Wanget al\.(2024c (https://arxiv.org/html/2606.15069#bib.bib67)); Vermaet al\.(2024 (https://arxiv.org/html/2606.15069#bib.bib68))已经对一般机器学习任务中的反事实给出了正式定义。一个反事实示例$c$通常通过以下方式扰乱模型对实例$x$的预测，使其从原始类别$y$变为替代类别$y^\{\prime\}$，同时对$x$进行最小但必要的更改：
\[
\begin{aligned}
\arg\min_{c} & \quad \text{dist}(x,c) \\
\text{s.t.} & \quad f(c) \neq f(x)
\end{aligned}
\]
其中$f$是一个任务特定的模型$f: \mathtt{X}\in\mathbb{R}^d \rightarrow \mathtt{Y}$，用于建立从$x$到$y$的映射，而$\text{dist}(\cdot,\cdot)$是一个距离函数，衡量改变预测所需更改的代价。

上述定义概述了反事实生成问题的基本原则。考虑到GEC任务独特的公式化问题，我们将GEC的反事实识别为对源文本进行细微更改，但导致原始编辑的一个子集。受图1 (https://arxiv.org/html/2606.15069#S1.F1)中示例的启发，我们主要关注句子内部和句子间的反事实。我们考虑反事实以$c = p \oplus s^\prime \oplus q$的形式出现，其中$s^\prime$最小限度地修改$s$，而$p$和$q$分别是对源文本的前缀和后缀。因此，我们有：
\[
\begin{aligned}
\operatorname*{argmin}_{c} & \quad \text{dist}(s,c) \\
& = \text{syntax\_dist}(s,s^\prime) + \text{semantic\_dist}(s^\prime, p\oplus q) \\
\text{s.t.} & \quad \mathcal{E}^\prime \subseteq \mathcal{E}
\end{aligned}
\tag{1}
\]
形式上，$(s,t)$表示带有标注的源文本和目标文本，用于语法错误纠正。理想情况下，$f(\cdot)$是一个GEC模型，它将源文本作为输入并完美地生成纠正后的文本，因此$f(s)=t$且$f(c)=t^\prime$。

CoCoGEC：用于鲁棒语法错误纠正的反事实生成

相似文章

GCCM：通过对比一致性模型增强生成图预测

错误编码：多语言语法错误纠正的上下文示例表征检索

SERC: 基于LDPC思想的语义纠错用于检索增强生成

COFT：面向大型语言模型公平思维链推理的反事实-共形解码

CogGuard：边缘智能服务中用于主动预警的认知与操作画像构建

提交意见反馈