PSK@EEUCA 2026：利用合成数据增强微调大型语言模型以检测游戏聊天中的多类毒性

arXiv cs.CL 2026/05/11 04:00 论文

nlp toxicity-detection synthetic-data fine-tuning llm gaming shared-task

摘要

本文介绍了一个用于 EEUCA 2026 游戏聊天毒性检测共享任务的系统，该系统通过结合合成数据增强微调 Llama 3.1 8B 模型，获得了第四名。文章重点阐述了一种“验证陷阱”现象：由于数据分布偏移，较高的验证分数与测试集表现并不相关。

arXiv:2605.07201v1 公告类型：新论文摘要：本文描述了我们在 EEUCA 2026“理解游戏社区中的毒性行为”共享任务中的系统方案。该任务涉及将《坦克世界》（World of Tanks）的聊天消息分类为六种毒性类别：非毒性、侮辱/谩骂、其他冒犯性内容、仇恨/骚扰、威胁以及极端主义。我们探索了多种方法，包括基于编码器的模型、使用 LoRA 微调的指令微调大语言模型（LLMs）、层次分类、一对多策略以及各种集成方法。我们表现最佳的系统结合了 Llama 3.1 8B 模型与经过仔细校准的 5% 合成数据增强，在测试集上取得了 0.6234 的 F1-macro 分数，在 35 支参赛队伍中排名第四。我们对数据集的标注模式及其对模型泛化能力的影响进行了广泛分析，揭示了一个关键的“验证陷阱”现象，即高验证性能与较差的测试迁移能力相关联。

查看原文

查看缓存全文

缓存时间: 2026/05/11 06:54

# PSK@EEUCA 2026：利用合成数据增强微调大语言模型以进行游戏聊天中的多类毒性检测

来源：https://arxiv.org/html/2605.07201
###### 摘要

本文介绍了我们为 EEUCA 2026 关于理解游戏社区中毒性行为共享任务（Shared Task）所设计的系统。该任务涉及将《坦克世界》（World of Tanks）的聊天消息分类为六个毒性类别：非毒性、侮辱/谩骂、其他冒犯性内容、仇恨/骚扰、威胁和极端主义。我们探索了多种方法，包括基于编码器（encoder）的模型、通过 LoRA 进行微调的指令微调大语言模型（LLMs）、层次化分类、一对多策略以及各种集成方法。我们表现最佳的系统将 Llama 3.1 8B 与经过仔细校准的 5% 合成数据增强相结合，在测试集上取得了 0.6234 的 F1-macro 分数，在 35 个参赛队伍中排名第 4。我们对数据集的标注模式及其对模型泛化能力的影响进行了广泛分析，揭示了一个关键的“验证陷阱”现象，即高验证性能与较差的测试转移能力相关。

PSK@EEUCA 2026：利用合成数据增强微调大语言模型以进行游戏聊天中的多类毒性检测

Srikar Kashyap Pulipaka 独立研究者 [email protected]

## 1 引言

网络游戏社区面临着包括骚扰、仇恨言论和威胁在内的毒性行为的重大挑战。EEUCA 2026 关于理解游戏社区中毒性行为的共享任务 Thapa 等人 (2026) (https://arxiv.org/html/2605.07201#bib.bib1) 专注于检测和分类《坦克世界》聊天消息中的毒性，旨在通过基于 AI 的审核工具促进更健康的数字空间。

该任务提出了几个独特的挑战：

- • 极端的类别不平衡（81% 为非毒性，稀有类别 <1%）
- • 简短、非正式且包含游戏特定词汇的文本
- • 需要跨语言理解的多语言内容
- • 毒性类别之间的细微差别（例如，基于技能的侮辱与基于身份的仇恨）

我们的主要策略结合了指令微调的大语言模型（Llama 3.1 8B）与通过 LoRA 进行的参数高效微调，以及经过仔细校准的合成数据增强。我们发现，狭窄的 5% 合成数据比例是最优的，任何方向的偏差都会显著降低测试性能。

我们的关键发现是“验证陷阱”现象：通过保守预测（匹配验证分布）实现高验证 F1 的模型在测试数据上表现不佳。这对我们的大型模型影响最为严重，12B 模型显示出 0.66 的验证 F1，但测试 F1 仅为 0.52。我们的最终系统实现了 0.6234 的 F1-macro，在 35 支队伍中总体排名第 4。

## 2 背景

### 2.1 任务描述

EEUCA 2026 毒性检测任务 Thapa 等人 (2026) (https://arxiv.org/html/2605.07201#bib.bib1) 是第 9 届事件抽取与理解研讨会 Hürriyetoğlu 等人 (2026) (https://arxiv.org/html/2605.07201#bib.bib2) 的一部分。该任务要求根据 Bhandari 等人 (2023) (https://arxiv.org/html/2605.07201#bib.bib4) 的标注方案，将游戏聊天消息分类为六个类别：

1. 0. 非毒性（Non-toxic）：正常或积极的交流
2. 1. 侮辱/谩骂（Insults/Flaming）：针对游戏技能的人身攻击
3. 2. 其他冒犯性（Other Offensive）：不适当但未直接攻击的内容
4. 3. 仇恨/骚扰（Hate/Harassment）：基于身份的针对性虐待
5. 4. 威胁（Threats）：暴力或伤害威胁
6. 5. 极端主义（Extremism）：仇恨意识形态和非人化

### 2.2 数据集

该数据集源自 GameTox 语料库 Naseem 等人 (2025) (https://arxiv.org/html/2605.07201#bib.bib3)，包含《坦克世界》的聊天消息。表 1 (https://arxiv.org/html/2605.07201#S2.T1) 显示了严重的类别不平衡，其中非毒性消息占 81%，而稀有类别（威胁、极端主义）合计不到 0.2%。

表 1：显示严重不平衡的训练集类别分布。

我们的分析揭示了显著的数据质量模式：40.2% 的训练消息是完全重复的，13.4% 的消息具有相同文本但标签不同。有趣的是，在去重数据上进行训练损害了性能（F1 从 0.60 降至 0.44），这表明重复项提供了有益的隐式过采样。

### 2.3 相关工作

毒性检测已经使用基于 Transformer 的模型进行了广泛研究 Devlin 等人 (2019) (https://arxiv.org/html/2605.07201#bib.bib7); Liu 等人 (2019) (https://arxiv.org/html/2605.07201#bib.bib8)。最近的工作表明，指令微调的大语言模型可以在分类任务上实现强劲性能 Wei 等人 (2022) (https://arxiv.org/html/2605.07201#bib.bib10); Thapa 等人 (2025) (https://arxiv.org/html/2605.07201#bib.bib6)。如 LoRA Hu 等人 (2022) (https://arxiv.org/html/2605.07201#bib.bib9) 等参数高效微调方法，使得在有限资源下适应大型模型成为可能。

由于领域词汇和可能构成也可能不构成毒性的基于技能的批评，游戏特定的毒性提出了独特的挑战 Kwak 等人 (2015) (https://arxiv.org/html/2015.07201#bib.bib11)。更广泛的仇恨言论检测已通过各种方法进行了研究 Parihar 等人 (2021) (https://arxiv.org/html/2605.07201#bib.bib5)。

## 3 系统概述

### 3.1 模型架构

我们实验了多种架构：

- • XLM-RoBERTa Large (560M)：全量微调
- • Gemma 2B Gemma Team (2024) (https://arxiv.org/html/2605.07201#bib.bib15)：LoRA + 8 位量化
- • Gemma 3 12B Gemma Team (2024) (https://arxiv.org/html/2605.07201#bib.bib15)：LoRA + 4 位量化
- • Llama 3.1 8B Meta AI (2024) (https://arxiv.org/html/2605.07201#bib.bib14)：LoRA + 4 位量化（最佳）

我们的最终系统使用带有 4 位 NF4 量化 Dettmers 等人 (2023) (https://arxiv.org/html/2605.07201#bib.bib13) 和 LoRA 适配器（rank=16, alpha=64）的 Llama 3.1 8B。

### 3.2 提示工程

根据类别定义有助于大语言模型区分相似类别的见解，我们在每个输入前添加了结构化定义：

> 分类游戏聊天毒性：0=非毒性：正常/积极聊天 1=侮辱：人身攻击、辱骂 2=其他冒犯性：不适当但非直接攻击 3=仇恨/骚扰：针对性虐待 4=威胁：暴力/伤害威胁 5=极端主义：仇恨意识形态 消息：[输入文本]

这种“简短”提示风格在上下文和避免截断之间实现了最佳平衡。

### 3.3 合成数据增强

我们通过基于大语言模型的改写增强生成合成训练数据，重点关注少数类别。在初步的直接生成实验产生了与真实《坦克世界》聊天中简短、俚语丰富的风格不符的通用消息后，我们采用了仅改写策略。每条源消息都使用以下模板进行了重写：

> 使用不同的词语重写这条《坦克世界》游戏聊天消息，但保持相同的含义和毒性级别。原文：[消息] 要求：保持完全相同的含义和毒性级别；使用自然的游戏语言、缩写、俚语；长度相似（3-20 个单词）。仅输出重写后的消息。

合成池包含 10,464 个经过筛选的改写样本，均来自少数毒性类别：8,348 个用于类别 2（其他冒犯性），1,633 个用于类别 3（仇恨/骚扰），343 个用于类别 4（威胁），以及 140 个用于类别 5（极端主义）。我们在合集中应用了基本清洗、无效标签和长度过滤、标签泄漏正则表达式过滤以及基于嵌入的去重。由于改写样本故意与其源消息相近，我们没有移除与原始训练示例高度相似的改写样本。合成示例仅在分割真实数据后添加到训练分区中；验证集保持 100% 真实。

对于最终的 5% 设置，我们从该池中采样了 1,921 个合成示例（1,539 个类别 2，282 个类别 3，64 个类别 4，36 个类别 5），使得合成数据占训练数据的实际比例为 4.998%。合成比例证明至关重要：

- • 5% 合成：最佳，测试转移效果最好
- • 2-3%：不足，测试转移效果差
- • 7-10%：过拟合合成模式
- • 15%：性能显著下降

狭窄的最佳范围表明，合成数据通过在少数类别上使预测更“激进”，从而更好地匹配测试分布，起到了帮助作用。

## 4 替代方法

我们探索了几种最终表现不佳的替代策略：

层次化分类：两阶段方法（二元毒性/非毒性，然后在毒性类别中进行 5 类分类）实现了 0.67 的验证 F1，但测试 F1 仅为 0.47，这是我们观察到的最大泛化差距。

一对多：六个二元分类器，具有激进的过采样（高达 500 倍）和焦点损失 Lin 等人 (2017) (https://arxiv.org/html/2605.07201#bib.bib12)。在 0.56 的验证 F1 下过于保守。

迁移学习：在微调之前先在 DOTA 2 毒性数据上进行预训练导致了验证陷阱（0.68 验证 -> 0.55 测试）。

集成方法：概率平均、投票和置信度路由通常会损害性能，因为我们表现最佳的单一模型在所有类别上都占据主导地位。

事后校准：Platt 缩放、保序回归和温度缩放均未提供改进。

## 5 实验设置

### 5.1 训练配置

- • 模型：Llama 3.1 8B
- • 量化：4 位 NF4
- • LoRA：rank=16, alpha=64, dropout=0.0
- • 学习率：5e-5（余弦调度）
- • 轮数：4
- • 批大小：4（梯度累积：4）
- • 损失函数：类别加权交叉熵
- • 合成比例：5%
- • 最大序列长度：384

### 5.2 评估

官方指标是所有六个类别的宏平均 F1 分数。我们使用提供的验证分割进行开发和超参数调整。

## 6 结果

### 6.1 主要结果

表 2 (https://arxiv.org/html/2605.07201#S6.T2) 比较了我们的方法。带有 5% 合成数据的 Llama 3.1 8B 实现了最佳的测试性能。未增强的 5% 合成模型得分为 0.6232；对类别 2 进行小幅事后提升后，官方提交分数提高至 0.6234。

表 2：系统比较。最佳测试结果加粗显示。

### 6.2 合成数据消融实验

表 3 (https://arxiv.org/html/2605.07201#S6.T3) 显示了对合成比例的临界敏感性。

表 3：合成数据比例对 Llama 8B 的影响。

为了理解为什么 5% 的转移效果最好，我们比较了表 4 (https://arxiv.org/html/2605.07201#S6.T4) 中 Llama 8B 模型的测试预测分布。5% 模型减少了非毒性预测，并增加了对类别 2 和 3 的预测，这些易混淆的少数类别受到训练/测试标注偏移的影响最大。较高的合成比例未能保持类别级决策的这种平衡，并降低了测试 F1。

表 4：Llama 8B 合成数据变体的测试预测分布。

### 6.3 每类性能

表 5 (https://arxiv.org/html/2605.07201#S6.T5) 显示了最终提交系统的每类测试 F1。性能与类别频率大致相关，其中类别 2（其他冒犯性）和类别 3（仇恨/骚扰）尤为具有挑战性。

表 5：最终提交系统的每类 F1。

## 7 分析

### 7.1 验证陷阱

我们最重要的发现是“验证陷阱”：通过保守预测（匹配 81% 的非毒性分布）实现高验证 F1 的模型在测试中表现不佳。证据包括：

- • Gemma 12B：0.66 验证 -> 0.52 测试
- • 迁移学习：0.68 验证 -> 0.55 测试
- • 两阶段方法：0.67 验证 -> 0.47 测试

预测更多少数类别（2, 3）的模型在测试中表现更好，这表明不同分割之间存在不同的标注模式。

### 7.2 为什么 5% 合成数据有效

5% 的比例似乎增加了少数类别的预测，而不会淹没原始模式。表 4 (https://arxiv.org/html/2605.07201#S6.T4) 中的分布分析支持这种解释：与无合成数据的 Llama 8B 模型相比，5% 模型预测的非毒性消息更少，类别 2/3 消息更多，这改善了测试转移。较高的合成比例并未产生相同的类别级准确性：10% 模型将预测进一步转向类别 2，但测试 F1 降低了约 0.038，这表明过多的合成数据可能会强化伪影或将模型偏离测试标注模式。

### 7.3 错误分析

常见的错误模式包括：

- • 类别 1（侮辱）和类别 2（其他冒犯性）之间的混淆
- • 多语言消息被误分类为非毒性
- • 游戏俚语被错误标记为毒性

## 8 结论

我们全面探索了游戏毒性检测的方法。关键发现：

1. 1. Llama 3.1 8B 优于更小和更大的模型
2. 2. 合成数据有一个狭窄的最佳点（5%）
3. 3. 由于分布偏移，验证指标可能具有误导性
4. 4. 当一个模型占据主导地位时，集成没有帮助

我们的系统实现了 0.6234 的 F1-macro，在 35 支队伍中排名第 4。未来的工作可以探索更好地处理分布偏移和外部游戏特定数据。

## 局限性

我们的分析仅限于此特定数据集。“验证陷阱”现象可能是数据集特定的，不具备普遍性。计算限制限制了对更大模型和更长训练时间的探索。合成数据方法需要访问商业大语言模型 API。

## 伦理声明

本工作涉及检测游戏聊天中的毒性内容。模型可能会被滥用以生成毒性内容或用于监控。我们倡导在有人类监督、关于自动化决策的透明度以及为用户提供的申诉机制的内容审核系统中负责任地部署。

## 参考文献

- A. Bhandari, S. B. Shah, S. Thapa, U. Naseem, and M. Nasim (2023) CrisisHateMM: multimodal analysis of directed and undirected hate speech in text-embedded images from Russia–Ukraine conflict. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 1994–2003. 被引用: §2.1 (https://arxiv.org/html/2605.07201#S2.SS1.p1.1).
- T. Dettmers, A. Pagnoni, A. Holtzman, and L. Zettlemoyer (2023) QLoRA: efficient finetuning of quantized LLMs. In Advances in Neural Information Processing Systems, Vol. 36. 被引用: §3.1 (https://arxiv.org/html/2605.07201#S3.SS1.p3.1).
- J. Devlin, M. Chang, K. Lee, and K. Toutanova (2019) BERT: pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp. 4171–4186. 被引用: §2.3 (https://arxiv.org/html/2605.07201#S2.SS3.p1.1).
- Gemma Team (2024) Gemma: open models based on gemini research and technology. arXiv preprint arXiv:2403.08295. 被引用: 第2项 (https://arxiv.org/html/2605.07201#S3.I1.i2.p1.1), 第3项 (https://arxiv.org/html/2605.07201#S3.I1.i3.p1.1).
- E. J. Hu, Y. Shen, P. Wallis, Z. Allen-Zhu, Y. Li, S. Wang, L. Wang, and W. Chen (2022) LoRA: low-rank adaptation of large language models. In International Conference on Learning Representations, 被引用: §2.3 (https://arxiv.org/html/2605.07201#S2.SS3.p1.1).
- A. Hürriyetoğlu, S. Thapa, H. Tanev, L. Thapa, and S. Adhikari (2026) Overview of the workshop on event extraction and understanding: challenges and applications. In Proceedings of the 9th Workshop on Event Extraction and Understanding: Challenges and Applications (EEUCA), 被引用: §2.1 (https://arxiv.org/html/2605.07201#S2.SS1.p1.1).
- H. Kwak, J. Blackburn, and S. Han (2015) Exploring cyberbullying and other toxic behavior in team competition online games. In Proceedings of the 33rd Annual

PSK@EEUCA 2026：利用合成数据增强微调大型语言模型以检测游戏聊天中的多类毒性

相似文章

Twitch聊天中的毒性：基于LLM的跨游戏社区分析

大型语言模型中的毒性测量与缓解：一项全面的复制研究

多语言语言模型中有毒内容检测与缓解策略综述

LLM解毒：直接从数据集入手

更难防御：面向中文的通过隐式增强与混淆重写实现的毒性攻击

提交意见反馈