CoCoGEC:用于鲁棒语法错误纠正的反事实生成

arXiv cs.CL 论文

摘要

提出CoCoGEC,一种反事实生成框架,通过改变GEC训练数据中与错误无关的上下文来提升模型鲁棒性,在扰动基准上取得了显著的F0.5提升。

arXiv:2606.15069v1 公告类型:新 摘要:语法错误纠正(GEC)系统通常在GEC基准上进行训练和评估,但一旦周围上下文发生轻微扰动或扩展,其性能往往会急剧下降。这表明现有的GEC模型通常无法理解变化上下文中的错误模式。本文深入研究了GEC任务中的反事实情况,其中上下文的细微变化可能导致标签翻转问题。我们提出了CoCoGEC,一种反事实生成框架,能够创建训练实例的副本并改变与错误无关的上下文。我们的框架通过以下方式系统生成反事实:(1)生成句内和句间反事实,通过改变词级和句子级上下文来保持原始实例的错误模式和句法;(2)通过选择标签翻转且GEC互信息(MI)系数高的实例来修正生成的反事实。大量实验表明,我们的方法显著提高了GEC模型的稳定性,超过了一系列数据增强基线。特别是,在扰动后的BEA-19*、CoNLL-14*和TEM-8*数据集上,我们的方法分别实现了+9.9、+11.3和+20.8个绝对F0.5点的提升。我们的代码已发布在https://github.com/Quinnok/CoCoGEC
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:45

# CoCoGEC:面向鲁棒语法纠错的反事实生成
来源:https://arxiv.org/html/2606.15069
钱宇旺,王晓曼,梁媛媛,李欣远,兰韵诗
华东师范大学
\{wangqianyu, xmwang, leonyuany, xyli\}@stu\.ecnu\.edu\.cn, yslan@dase\.ecnu\.edu\.cn

######  摘要
语法纠错(GEC)系统通常基于GEC基准进行训练和评估,但一旦周围上下文发生轻微扰动或扩展,其性能往往会急剧下降。这表明现有GEC模型通常无法理解变化上下文中的错误模式。在本文中,我们深入研究了GEC任务的反事实情况,即上下文的细微变化可能导致标签翻转问题。我们提出CoCoGEC,一个反事实生成框架,通过创建训练实例的副本并改变其中与错误无关的上下文。我们的框架系统性地生成反事实,具体通过:(1)生成句子内部和句子间反事实,通过改变词级和句级上下文,保持原始实例的错误模式和句法;(2)通过选择标签翻转且具有高GEC互信息系数的实例来修正生成的反事实。大量实验表明,我们的方法显著提高了GEC模型的稳定性,优于一组数据增强基线。特别是在经过扰动的BEA-19*、CoNLL-14*和TEM-8*数据集上,可以实现绝对$F_{0.5}$增益分别提高+9.9、+11.3和+20.8个点。我们的代码已发布在https://github.com/Quinnok/CoCoGEC。

CoCoGEC:面向鲁棒语法纠错的反事实生成
钱宇旺,王晓曼,梁媛媛,李欣远,兰韵诗††thanks:通讯作者
华东师范大学
\{wangqianyu, xmwang, leonyuany, xyli\}@stu\.ecnu\.edu\.cn, yslan@dase\.ecnu\.edu\.cn

## 1  引言

语法纠错(GEC)旨在自动检测并纠正文本中的语法错误,支持智能写作助手和计算机辅助语言学习等应用。近年来,它吸引了学术界和工业界越来越多的关注(Katinskaia and Yangarber,2023 (https://arxiv.org/html/2606.15069#bib.bib43),2024 (https://arxiv.org/html/2606.15069#bib.bib45); Liet al\.,2025 (https://arxiv.org/html/2606.15069#bib.bib46); Kovalchuket al\.,2025 (https://arxiv.org/html/2606.15069#bib.bib47))。然而,我们观察到训练良好的GEC模型与其在现实世界中的应用之间存在显著差距。

参考图注Figure 1: CoCoGEC的动机。(a) 标准基准与真实世界输入之间的上下文偏移。(b) 在GPT-4扰动下TEM-8的鲁棒性下降。(c) 两种类型反事实的示例说明。

Figure1 (https://arxiv.org/html/2606.15069#S1.F1)(a)展示了BEA-19任务中的一个示例,其中在“Discovery learning”的上下文中,“least”应纠正为“most”,“facilitate”应纠正为“facilitating”。虽然GPT-4在标准GEC基准上正确修改了该句子,但GEC模型在遇到真实世界中多样化上下文中出现类似错误时常常失败。例如,在一篇关于“Active participation”的长文中,同样的错误短语再次出现,但GPT-4未作改动,从而表现出纠正不足的错误。为了量化这种鲁棒性差距,我们进行了初步实验。我们通过两种增强方法生成“真实世界”数据:(1)词级扰动,对TEM-8(Yang,2017 (https://arxiv.org/html/2606.15069#bib.bib97))测试句子中的随机词符进行修改;(2)句级扰动,通过随机组合测试集中的句子来构建111初步实验的实施细节见附录A (https://arxiv.org/html/2606.15069#A1)。如图1 (https://arxiv.org/html/2606.15069#S1.F1)(b)所示,原始GEC数据与“真实世界”数据之间存在明显的性能下降,尤其是句级扰动。

先前的研究(Zhanget al\.,2023 (https://arxiv.org/html/2606.15069#bib.bib64); Wanget al\.,2024a (https://arxiv.org/html/2606.15069#bib.bib52))已揭示当前GEC模型易受看似无害的扰动影响。但这些研究主要关注基于噪声的攻击或广泛的增强,而非解释那些从根本上影响GEC模型的潜在扰动。例如,Wanet al\. (https://arxiv.org/html/2606.15069#bib.bib49)(2020 (https://arxiv.org/html/2606.15069#bib.bib49))和Parket al\. (https://arxiv.org/html/2606.15069#bib.bib71)(2023 (https://arxiv.org/html/2606.15069#bib.bib71))使用噪声注入,Lichtargeet al\. (https://arxiv.org/html/2606.15069#bib.bib72)(2019 (https://arxiv.org/html/2606.15069#bib.bib72))和Stahlberg and Kumar (https://arxiv.org/html/2606.15069#bib.bib73)(2021 (https://arxiv.org/html/2606.15069#bib.bib73))生成伪语料,Wanget al\. (https://arxiv.org/html/2606.15069#bib.bib52)(2024a (https://arxiv.org/html/2606.15069#bib.bib52))和Li and Lan (https://arxiv.org/html/2606.15069#bib.bib74)(2025 (https://arxiv.org/html/2606.15069#bib.bib74))提出上下文增强。这些方法扩展或重新分配了训练数据,但扰动通常是随机或粗略控制的,限制了它们解释性能差距的能力。

在本文中,我们通过以下问题解决对词级和句级扰动的鲁棒性:我们如何让GEC模型更关注错误模式,同时忽略变化的上下文?为此,我们提出了一种新颖的CoCoGEC方法,其灵感来自反事实分析。CoCoGEC背后的直觉是创建训练实例的副本,并改变其中与错误无关的上下文。我们识别了GEC数据的两种解耦反事实类型,旨在改变词级和句级上下文而不影响句子中的原始错误模式,但可能混淆GEC模型的预测。我们在图1 (https://arxiv.org/html/2606.15069#S1.F1)(c)中展示了“反事实”GEC。通过这些反事实,GEC模型在学习如何纠正句子时,将更侧重于错误模式。CoCoGEC使用大语言模型(LLM)生成跨度控制的句子内部变体,替换与错误无关的跨度,同时保持黄金纠正编辑的有效性。它还通过附加连贯、无错误的前缀和后缀来构建句子间变体,以模拟篇章级别的上下文偏移。我们强制执行编辑级别的保真度约束以过滤无效候选,然后使用GEC互信息分数对剩余的反事实进行排序,并保留最具挑战性的反事实进行增强。实验结果一致验证了CoCoGEC能提高GEC模型的鲁棒性。

本研究的主要贡献如下:

- •据我们所知,这是首次通过三个准则刻画潜在扰动来探索GEC任务反事实的研究。
- •我们引入了CoCoGEC,一个为GEC上下文量身定制的反事实生成流程,系统性地构建句子内部和句子间变体,而不影响原始错误模式,但可能混淆GEC模型的预测。
- •我们提出了一种新颖的GEC互信息系数,用于捕捉变化上下文与模型预测之间的依赖关系,以识别高质量的反事实。
- •我们在RobustGEC基准上证明,CoCoGEC在句子内部和句子间扰动下均能持续提高鲁棒性,同时不牺牲标准测试环境下的性能。

## 2  相关工作

#### 鲁棒GEC。
现代GEC系统主要分为序列到序列生成(Vaswaniet al\.,2017 (https://arxiv.org/html/2606.15069#bib.bib14); Junczys-Dowmuntet al\.,2018 (https://arxiv.org/html/2606.15069#bib.bib27))、序列到编辑纠正(Awasthiet al\.,2019 (https://arxiv.org/html/2606.15069#bib.bib28); Stahlberg and Kumar,2020 (https://arxiv.org/html/2606.15069#bib.bib29); Omelianchuket al\.,2020 (https://arxiv.org/html/2606.15069#bib.bib16); Qorib and Ng,2023 (https://arxiv.org/html/2606.15069#bib.bib95))(包括混合检测-纠正变体(Liet al\.,2023 (https://arxiv.org/html/2606.15069#bib.bib65); Li and Wang,2024 (https://arxiv.org/html/2606.15069#bib.bib89))),以及近期使用提示或轻监督的基于LLM的流程(Loemet al\.,2023 (https://arxiv.org/html/2606.15069#bib.bib58); Coyneet al\.,2023 (https://arxiv.org/html/2606.15069#bib.bib59); Katinskaia and Yangarber,2024 (https://arxiv.org/html/2606.15069#bib.bib45); Tanget al\.,2024 (https://arxiv.org/html/2606.15069#bib.bib104))。尽管在基准上表现强劲,但现有模型在遇到小的上下文偏移时可能变得脆弱,这推动了面向鲁棒性的训练和数据构建。

鲁棒性通常沿着两个互补方向追求。模型中心的方法通过明确正则化不变性来提高稳定性——例如通过对抗目标(Danget al\.,2021 (https://arxiv.org/html/2606.15069#bib.bib40))、蒸馏风格约束(Xiaet al\.,2022 (https://arxiv.org/html/2606.15069#bib.bib41)),或基于一致性的后训练(如RobustGEC/TemplateGEC/CLEME2.0/CSA)(Zhanget al\.,2023 (https://arxiv.org/html/2606.15069#bib.bib64); Liet al\.,2023 (https://arxiv.org/html/2606.15069#bib.bib65); Yeet al\.,2024 (https://arxiv.org/html/2606.15069#bib.bib57); Tanget al\.,2023 (https://arxiv.org/html/2606.15069#bib.bib23))。数据中心的方法则通过噪声注入(Solymanet al\.,2023 (https://arxiv.org/html/2606.15069#bib.bib26); Sunet al\.,2023 (https://arxiv.org/html/2606.15069#bib.bib25))、回译(Fanget al\.,2023 (https://arxiv.org/html/2606.15069#bib.bib22)),以及上下文或基于编辑的增强(Wanget al\.,2024a (https://arxiv.org/html/2606.15069#bib.bib52); Yeet al\.,2023 (https://arxiv.org/html/2606.15069#bib.bib50))来合成训练对,有时与面向鲁棒性的标注或课程学习相结合(Li and Lan,2025 (https://arxiv.org/html/2606.15069#bib.bib74); Zhanget al\.,2025 (https://arxiv.org/html/2606.15069#bib.bib107)),从而拓宽监督信号。然而,这些增强主要目标是错误多样性或重加权,不加区分的合成数据甚至可能降低GEC性能(Parket al\.,2023 (https://arxiv.org/html/2606.15069#bib.bib71))。相比之下,我们的方法是数据中心的:我们通过编辑子集约束$E^\{\prime\}\subseteq E$生成上下文解耦的反事实,以针对上下文鲁棒性,并且它们可以与各种GEC主干网络一起使用。

#### 超越GEC的反事实分析。
反事实数据增强(CDA)通过生成保持或系统修改标签的受控扰动来提高鲁棒性,鼓励模型依赖不变特征并泛化到分布外数据(Wanget al\.,2024b (https://arxiv.org/html/2606.15069#bib.bib108); Jianget al\.,2024 (https://arxiv.org/html/2606.15069#bib.bib109))。近期进展主要来自增强生成的可控性和标签保真度:基于扩散的框架为鲁棒合成和迁移提供了强大机制(Xinet al\.,2024 (https://arxiv.org/html/2606.15069#bib.bib75); Chenet al\.,2024 (https://arxiv.org/html/2606.15069#bib.bib79); Baeet al\.,2025 (https://arxiv.org/html/2606.15069#bib.bib80); Wang and Wan,2022 (https://arxiv.org/html/2606.15069#bib.bib78)),而优化驱动的公式通过强化学习、信息瓶颈和对比目标来强制不变性(Chenet al\.,2021 (https://arxiv.org/html/2606.15069#bib.bib83); Sreedharet al\.,2025 (https://arxiv.org/html/2606.15069#bib.bib90); Changet al\.,2024 (https://arxiv.org/html/2606.15069#bib.bib56); Choiet al\.,2022 (https://arxiv.org/html/2606.15069#bib.bib84))。与此同时,反事实已从基于规则的编辑转向更可控的生成流程,包括蒸馏和LLM驱动的合成(Chenet al\.,2023b (https://arxiv.org/html/2606.15069#bib.bib51); Youssefet al\.,2024 (https://arxiv.org/html/2606.15069#bib.bib91); Howardet al\.,2022 (https://arxiv.org/html/2606.15069#bib.bib36); Trevisoet al\.,2023 (https://arxiv.org/html/2606.15069#bib.bib87); Zhouet al\.,2023 (https://arxiv.org/html/2606.15069#bib.bib88)),以及面向解释的设计,提高了可解释性和忠实度(Yanget al\.,2024 (https://arxiv.org/html/2606.15069#bib.bib85); Anet al\.,2025 (https://arxiv.org/html/2606.15069#bib.bib86))。总的来说,这些研究为构建上下文不变的NLP模型提供了广泛工具,但它们侧重于分类任务,使得结构预测和GEC的反事实生成相对未被探索。我们的工作将CDA引入GEC,通过设计针对错误纠正的上下文反事实,而非判别式设置中常用的标签翻转反事实。

## 3  方法

参考图注Figure 2: CoCoGEC概览:我们生成跨度控制的句子内部变体,并附加连贯的前缀/后缀以形成长上下文反事实,然后通过编辑集一致性进行过滤,并通过GEC互信息进行排序,以保留最具混淆性但有效的增强。

### 3.1  GEC反事实的定义

现有研究Wanget al\.(2024c (https://arxiv.org/html/2606.15069#bib.bib67)); Vermaet al\.(2024 (https://arxiv.org/html/2606.15069#bib.bib68))已经对一般机器学习任务中的反事实给出了正式定义。一个反事实示例$c$通常通过以下方式扰乱模型对实例$x$的预测,使其从原始类别$y$变为替代类别$y^\{\prime\}$,同时对$x$进行最小但必要的更改:
\[
\begin{aligned}
\arg\min_{c} & \quad \text{dist}(x,c) \\
\text{s.t.} & \quad f(c) \neq f(x)
\end{aligned}
\]
其中$f$是一个任务特定的模型$f: \mathtt{X}\in\mathbb{R}^d \rightarrow \mathtt{Y}$,用于建立从$x$到$y$的映射,而$\text{dist}(\cdot,\cdot)$是一个距离函数,衡量改变预测所需更改的代价。

上述定义概述了反事实生成问题的基本原则。考虑到GEC任务独特的公式化问题,我们将GEC的反事实识别为对源文本进行细微更改,但导致原始编辑的一个子集。受图1 (https://arxiv.org/html/2606.15069#S1.F1)中示例的启发,我们主要关注句子内部和句子间的反事实。我们考虑反事实以$c = p \oplus s^\prime \oplus q$的形式出现,其中$s^\prime$最小限度地修改$s$,而$p$和$q$分别是对源文本的前缀和后缀。因此,我们有:
\[
\begin{aligned}
\operatorname*{argmin}_{c} & \quad \text{dist}(s,c) \\
& = \text{syntax\_dist}(s,s^\prime) + \text{semantic\_dist}(s^\prime, p\oplus q) \\
\text{s.t.} & \quad \mathcal{E}^\prime \subseteq \mathcal{E}
\end{aligned}
\tag{1}
\]
形式上,$(s,t)$表示带有标注的源文本和目标文本,用于语法错误纠正。理想情况下,$f(\cdot)$是一个GEC模型,它将源文本作为输入并完美地生成纠正后的文本,因此$f(s)=t$且$f(c)=t^\prime$。

相似文章