面向低资源语言的文本去毒化系统Tatoxa:以鞑靼语为例

arXiv cs.CL 论文

摘要

介绍了Tatoxa,一个用于鞑靼语文本去毒化的最先进系统,优于现有的大语言模型。引入了一个新数据集,并表明跨语言迁移的效果比使用原生数据差。

arXiv:2606.26015v1 公告类型: 新 摘要: 文本去毒化,即自动检测和缓解辱骂性及有害内容,对于确保在线社区安全和保护用户至关重要。然而,像鞑靼语这样的低资源语言却很少受到研究关注。本文介绍了Tatoxa,一个用于鞑靼语文本去毒化的新型最先进系统。对比实验表明,所提出的方法在关键质量指标上优于现有的开源和专有商业大语言模型。我们还引入了一个新的鞑靼语文本去毒化数据集,专为低资源环境下的微调与评估而设计。最后,跨语言迁移实验表明,即使拥有大规模的俄语语料库,从其他语言(包括文化上相近的俄语)进行迁移的效果也显著低于使用原生鞑靼语数据训练的模型。
查看原文
查看缓存全文

缓存时间: 2026/06/25 05:13

# 低资源语言文本去毒化的Tatoxa系统:以鞑靼语为例
来源:https://arxiv.org/html/2606.26015
Ilseyar Alimova¹, Bogdan Monogov¹, Artyom Mazur², Daniil Antonov³, Vsevolod Karimov¹,², Vitaliy Egorov¹, Bulat Khakimov⁴,⁵, Alexander Panchenko¹,⁶

¹Skoltech, ²HSE, ³ITMO, ⁴鞑靼斯坦科学院应用符号学研究所, ⁵喀山联邦大学, ⁶AIRI
通讯作者:[email protected] (https://arxiv.org/html/2606.26015v1/mailto:[email protected])

###### 摘要

文本去毒化——自动检测和缓解辱骂及有害内容——对于确保在线社区安全、保护用户至关重要。然而,鞑靼语等低资源语言很少受到研究关注。本文提出Tatoxa,一种新颖的、面向鞑靼语文本去毒化的当前最优系统。对比实验表明,所提出的方法在关键质量指标上优于现有的开源和商业专有LLM。我们还引入了一个新的鞑靼语文本去毒化数据集,专为低资源场景下的微调和评估而设计。最后,跨语言迁移实验表明,即使拥有大规模的俄语语料库,从其他语言(包括文化相近的俄语)迁移的效果也显著差于在原生鞑靼语数据上训练。

---

# 低资源语言文本去毒化的Tatoxa系统:以鞑靼语为例

Ilseyar Alimova¹, Bogdan Monogov¹, Artyom Mazur², Daniil Antonov³, Vsevolod Karimov¹,², Vitaliy Egorov¹, Bulat Khakimov⁴,⁵, Alexander Panchenko¹,⁶
¹Skoltech, ²HSE, ³ITMO, ⁴鞑靼斯坦科学院应用符号学研究所, ⁵喀山联邦大学, ⁶AIRI
通讯作者:[email protected] (https://arxiv.org/html/2606.26015v1/mailto:[email protected])

## 1 引言

文本去毒化是指将文本改写为不包含侮辱、脏话或攻击性的、更中立形式的过程。该技术对于社交媒体内容审核很有价值:不是通过删除包含有毒或粗俗语言的帖子来进行审查,而是通过自动改写生成保留原意的净化版本,从而增强在线互动的安全性。

CLEF 2025举办的多语言文本去毒化共享任务表明,当前文本去毒化任务自动方法的质量仍远低于人类基准,尤其是对于低资源语言(Dementieva等人,2025 (https://arxiv.org/html/2606.26015#bib.bib1))。这一局限源于跨语言广泛使用单个多语言大型语言模型(LLM)。这类模型在低资源语言上通常表现不佳,因此可靠性较低,难以有效改写这些语言的文本。此外,文本去毒化依赖于文化知识:如果不熟悉源社区的规范和语用线索,即使是人类也可能无法识别有毒内容,自动化系统的可靠性也相应降低。

参见标题
图1:鞑靼语Tatoxa文本去毒化示例:原文(左)与去毒化后(右)。
本文以鞑靼语为案例,研究低资源语言的文本去毒化方法。CLEF-2025 TextDetox共享任务的结果表明,鞑靼语的自动系统在所评估的语言中得分最低(Dementieva等人,2025 (https://arxiv.org/html/2606.26015#bib.bib1))。为弥补这一差距,我们提出了Tatoxa——一个适配鞑靼语的新系统,并评估了鞑靼语的当前最优方法,在CLEF-2025去毒化数据集的鞑靼语子集(CLEF-Tatar)上展示了其有效性(Dementieva等人,2025 (https://arxiv.org/html/2606.26015#bib.bib1))。图1(https://arxiv.org/html/2606.26015#S1.F1)展示了Tatoxa输出的一个示例。我们还手动扩展了语料库,新增了701个手动标注的样本,以支持仅使用鞑靼语数据的实验,并研究跨语言迁移;同时报告了任务特定指标的改进。本文的主要贡献如下:

- •我们提出了Tatoxa,一种新的鞑靼语文本去毒化当前最优方法。
- •我们通过添加新的鞑靼语有毒-无毒文本对,扩展了现有数据集。
- •我们进行了跨语言数据迁移实验,以评估文本去毒化方法在不同语言间的可移植性。

本文其余部分组织如下:第2节(https://arxiv.org/html/2606.26015#S2)回顾去毒化和跨语言迁移的相关工作;第3节(https://arxiv.org/html/2606.26015#S3)描述Tatoxa;第4节(https://arxiv.org/html/2606.26015#S4)介绍数据集;第5节(https://arxiv.org/html/2606.26015#S5)概述实验;第6节(https://arxiv.org/html/2606.26015#S6)报告结果;第7节(https://arxiv.org/html/2606.26015#S7)总结;第8节(https://arxiv.org/html/2606.26015#S8)讨论局限性。

## 2 相关工作

尽管通过平行语料库的可用性,英语和俄语等富资源语言在文本去毒化方面取得了显著进展(Dementieva等人,2024a (https://arxiv.org/html/2606.26015#bib.bib2)),但多语言覆盖仍不均衡,许多语言仍缺乏去毒化资源。MultiParaDetox通过引入可扩展的众包框架,将ParaDetox流程扩展到英语之外,支持额外2种语言的平行去毒化数据收集,表明多语言去毒化研究既涵盖真正的低资源场景,也覆盖中等资源场景(Dementieva等人,2024b (https://arxiv.org/html/2606.26015#bib.bib3))。

近期研究开始通过提出针对特定语言和文化背景的数据中心方法来弥补这一差距。对于几种非洲语言,引入了一种结合TF-IDF毒性检测与基于规则改写、轻量且可解释的流程(Agbeyangi,2026 (https://arxiv.org/html/2606.26015#bib.bib6))。实验表明,在数据极度匮乏的情况下,混合的、基于语言学知识的方法仍然有效。对于希伯来语,使用少样本LLM提示后跟系统性人工修正构建了HeDetox语料库,表明即使使用LLM进行标注,高质量的平行去毒化数据也需要人工验证(Vanetik等人,2025 (https://arxiv.org/html/2606.26015#bib.bib7))。类似地,对于孟加拉语,通过LLM辅助标注流程构建了大规模BANGLANIRTOX语料库,证明微调后的生成模型在端到端去毒化中优于零样本提示和基于翻译的基线(Mohsin等人,2025 (https://arxiv.org/html/2606.26015#bib.bib8))。其他代表性不足的语言也报告了可比较的发现。对于意大利语,Detoxify-IT引入了第一个平行去毒化语料库,并表明即使是有限的特定语言微调也能带来比零样本LLM提示和通用多语言基线更明显的改进,强化了领域内监督对于有效去毒化的重要性(De Ruvo等人,2025 (https://arxiv.org/html/2606.26015#bib.bib10))。

近期工作还探索了合成平行数据生成,作为手动标注的可扩展替代方案。SynthDetoxM表明,现代开源LLM可以作为有效的少样本标注器,用于创建多语言平行去毒化语料库,并表明在合成数据上微调的模型优于零样本提示和相当规模的人工标注数据集,进一步强化了平行监督在数据稀缺场景中的核心作用(Moskovskiy等人,2025 (https://arxiv.org/html/2606.26015#bib.bib12))。

除了文本改写,相关工作还探索了低资源语言的毒性检测和跨语言迁移。对于乌克兰语,Dementieva等人(2024b (https://arxiv.org/html/2606.26015#bib.bib3))创建了第一个毒性分类语料库,评估了反向翻译、适配器训练和LLM提示等方法,发现在人工标注的特定语言数据上进行微调可取得最佳性能,而仅靠跨语言迁移则提供较弱的基线。对于几种印度语言也得出了类似结论,其中手动验证的多语言数据集对于构建可靠的安防模型至关重要(Beniwal等人,2025 (https://arxiv.org/html/2606.26015#bib.bib9))。最近以基准为导向的工作进一步表明,去毒化质量在不同语言和评估指标间差异显著,模型排序因语言和评分设置而变化,凸显了仅依赖毒性的自动评估的局限性,并推动了更具语言学基础的多语言评估协议(Protasov等人,2025 (https://arxiv.org/html/2606.26015#bib.bib11))。

最后,尽管取得了这些进展,突厥语言(特别是鞑靼语)的文本去毒化仍然具有挑战性。CLEF-2025多语言文本去毒化共享任务引入了第一个完全人工标注的鞑靼语平行去毒化数据集,使得在这一低资源场景中进行系统评估成为可能(Dementieva等人,2025 (https://arxiv.org/html/2606.26015#bib.bib1))。竞赛结果表明,虽然微调和混合多语言系统在整体上跨语言表现最强,但鞑靼语是最困难的案例之一:值得注意的是,共享任务的总体获胜系统在鞑靼语上并未取得有竞争力的结果,最佳表现依赖于明确的、特定语言的词汇适配,而非纯模型驱动的生成。

总体而言,先前的研究一致表明,高质量的平行监督(人工标注或借助LLM精心生成)是低资源语言成功去毒化的主要驱动力。在领域数据上微调持续优于零样本提示和仅跨语言迁移,而混合和规则引导的方法在资源极度受限的场景以及具有强正字法或文化约束的语言中仍具有竞争力。

## 3 Tatoxa

参见标题
图2:图示展示Tatoxa流程的工作流:(i) 微调机器翻译模型,将俄语翻译成鞑靼语(步骤1-2);(ii) 将去毒化数据集从俄语翻译成鞑靼语(步骤3-4);(iii) 在鞑靼语数据上微调去毒化模型(步骤5-6);(iv) 将去毒化模型应用于鞑靼语文本,并对候选输出进行排序以选择最优结果(步骤7-8)。
Tatoxa利用从俄语翻译成鞑靼语的大规模语料库,遵循四阶段流程:(i) 微调神经机器翻译模型(NMT)用于俄语→鞑靼语;(ii) 使用微调后的NMT将去毒化数据集翻译成鞑靼语;(iii) 在翻译后的数据集上训练去毒化模型;(iv) 执行推理,生成多个候选并排序。最终模型用于对鞑靼语文本进行去毒化(毒性缓解)。整体流程如图2(https://arxiv.org/html/2606.26015#S3.F2)所示。下文详细描述每个步骤。源代码和数据集已公开。¹¹¹https://github.com/s-nlp/tatoxa

### 3.1 机器翻译模型

为了获得更高质量的合成数据,我们首先将多语言MT模型适配到俄语-鞑靼语言对。我们从NLLB-200模型(Costa-Jussà等人,2022 (https://arxiv.org/html/2606.26015#bib.bib13))出发,在平行语料库Tatar-Russian parallel corpora (https://huggingface.co/datasets/AigizK/tatar-russian-parallel-corpora) 上对其进行微调。该数据集包含鞑靼语和俄语的平行句对。对于每个对齐的句对,我们创建两个监督训练实例(鞑靼语→俄语和俄语→鞑靼语),使得单个模型被训练为双向翻译。

### 3.2 翻译去毒化数据集

由于鞑靼语缺乏平行去毒化数据,我们通过翻译公开的俄语去毒化数据集来构建合成语料库。对于每个俄语句子对,我们使用上一阶段适配后的NLLB-200模型翻译两个句子。这产生了合成鞑靼语去毒化句对。训练分割的构建使用了:(i) 俄语ParaDetox (https://huggingface.co/datasets/s-nlp/ru_paradetox) 语料库(Dementieva等人,2024a (https://arxiv.org/html/2606.26015#bib.bib2));(ii) MultilingualParaDetox语料库 (https://huggingface.co/datasets/textdetox/multilingual_paradetox) 的俄语部分(Dementieva等人,2025 (https://arxiv.org/html/2606.26015#bib.bib1));(iii) RuDetoxifier (https://huggingface.co/datasets/d0rj/rudetoxifier_data);(iv) Detoxified (https://huggingface.co/datasets/d0rj/toxic_dvach_detoxified) 语料库。基于翻译的合成会因机器翻译的不完美而引入噪声。为缓解这一问题,我们使用跨语言语义相似度过滤合成句对。我们使用LaBSE(Feng等人,2022 (https://arxiv.org/html/2606.26015#bib.bib14))将俄语原文及其鞑靼语译文嵌入到共享向量空间。对于每个样本,我们分别计算有毒和无毒语句的俄语句子与其鞑靼语译文之间的余弦相似度,仅当两个相似度分数均至少为0.7时保留该样本。所选的阈值基于Iglesias等人(2023 (https://arxiv.org/html/2606.26015#bib.bib17))发表的实证研究。过滤后,数据集包含38,380个平行句对,其中31,218个用于训练,7,162个用于验证。

### 3.3 文本去毒化模型

对于最终的去毒化模型,我们使用mT0-XL模型(Muennighoff等人,2023 (https://arxiv.org/html/2606.26015#bib.bib15)),并在上一阶段自动翻译的句对上训练。为了提高鲁棒性,我们使用K折分割(K=3)训练一个LoRA适配器集成。我们将过滤后的训练集分为3折。对于每一折k∈{1,2,3},我们在对应的训练分区上训练适配器A_k,并在保留的折上进行评估,以基于验证损失选择每个折的最佳检查点。所有适配器共享相同的冻结mT0-XL骨干,不同折之间仅LoRA权重不同。

### 3.4 推理与候选排序

单次生成可能无法充分去毒化(残留毒性)或过度去毒化(导致语义漂移)。因此,我们采用了一种策略:生成多个去毒化候选句子,然后根据两个标准对生成的候选进行排序:其中立程度以及与原文的语义相似度。对于中性评分,我们使用了基于XLM-R的毒性分类器(Dementieva等人,2025 (https://arxiv.org/html/2606.26015#bib.bib1));原文与去毒化文本之间的语义相似度使用LaBSE(Feng等人,2022 (https://arxiv.org/html/2606.26015#bib.bib14))衡量。对于每个适配器,我们生成60个候选,总共获得180个候选。然后,我们按中立度和语义相似度对所有候选进行排序,并选择综合得分最高的一个。

## 4 数据集

鉴于CLEF-2025竞赛数据集的鞑靼语部分规模相对较小,我们通过添加701个样本对其进行了扩展。这些样本经过精心策划,旨在尽可能与……保持一致。

相似文章

LLM解毒:直接从数据集入手

arXiv cs.CL

研究者提出HSPD,一种语料库级解毒流程,可在保留语义的前提下重写预训练数据中的有毒片段,在GPT-2 XL、LLaMA-2、OPT与Falcon模型上实现SOTA毒性降低。

多语言语言模型中有毒内容检测与缓解策略综述

arXiv cs.CL

本综述综合了关于多语言大语言模型中有毒内容检测与去毒化研究,梳理了威胁模型、任务形式、检测方法和缓解策略,同时指出了持续存在的挑战,如语言覆盖不均衡以及危害定义的文化依赖性。