Twitch聊天中的毒性：基于LLM的跨游戏社区分析

arXiv cs.CL 2026/05/26 04:00 论文

toxicity twitch llm-analysis gaming-communities online-harassment zero-shot-classification chat-analysis

摘要

本文使用预训练LLM进行零样本分类，分析了约2000万条Twitch聊天信息，涵盖七种游戏类型，发现2.4%的消息具有毒性，其中MOBA游戏的毒性率最高（3.2%），体育游戏最低（2%）。研究还发现，同一类型内不同游戏之间的毒性分布存在显著差异。

arXiv:2605.24000v1 Announce Type: new 摘要：在线游戏社区中的毒性仍然是一个持续存在的挑战，体现在各种类型、平台和玩家互动中。虽然许多研究关注游戏内的毒性，但关于直播平台上不同游戏社区之间有毒行为如何变化，人们知之甚少。为了解决这一不足，我们分析了来自4,452个直播流的约2000万条聊天信息，涵盖Twitch上的七种游戏类型。我们使用预训练大型语言模型（LLM）通过零样本分类，根据Twitch的毒性分类法对信息进行分类。该分类法包括四个类别和八个子类，包括骚扰、歧视、性内容和脏话。我们的方法在TextDetox数据集上达到了94.5%的F1分数，并且人类与模型的一致性达到人与人之间的一致水平。我们的分析显示，2.4%的所有信息被归类为有毒，不同类型之间存在显著差异：MOBA游戏直播的毒性相对率最高（3.2%），体育游戏最低（2%）。此外，结果表明，即使在同一类型内，不同游戏的毒性分布也存在显著差异，这表明存在特定游戏的社区规范和机制，它们在类型效应之外塑造了有毒行为。这些发现为Twitch上类型和游戏特定的毒性模式提供了实证见解，并可为游戏社区提供更有针对性的审核策略。

查看原文

查看缓存全文

缓存时间: 2026/05/26 09:00

# Twitch 聊天中的毒性：基于大语言模型的游戏社区分析
来源：https://arxiv.org/html/2605.24000
###### 摘要

在线游戏社区中的毒性行为依然是一个持续存在的挑战，体现在不同游戏类型、平台及玩家交互中。尽管大量研究聚焦于游戏内的毒性，但关于流媒体平台上不同游戏社区之间毒性行为的差异却知之甚少。为弥补这一不足，我们分析了来自4452个直播流的约2000万条聊天消息，涵盖了Twitch上的七种游戏类型。我们使用预训练的大语言模型，通过零样本分类，依据Twitch的毒性分类法对消息进行分类。该分类法包含四个主要类别和八个子类，包括骚扰、歧视、色情内容和脏话。我们的方法在TextDetox数据集上达到了94.5%的F1分数，并且人机一致性接近人类间一致性。分析显示，所有消息中有2.4%被归类为毒性消息，不同游戏类型之间存在显著差异：MOBA游戏的直播流毒性比例最高（3.2%），而体育游戏最低（2%）。此外，结果表明，即使在相同游戏类型内，不同游戏的毒性分布也存在显著差异，这表明存在特定游戏的社区规范和机制，它们塑造了超越类型层面的毒性行为。这些发现为Twitch上基于游戏类型和特定游戏的毒性模式提供了实证见解，并可为游戏社区提供更具针对性的内容管理策略。

††publicationid:pubid:979-8-3315-9476-3/26/$31.00 ©2026 IEEE

## I 引言

在线游戏空间已成为玩家和观众互动、形成社区并建立共同规范的重要社交环境。然而，这些环境常常受到有害行为的影响，包括骚扰、辱骂性语言和歧视。此类行为会对玩家福祉产生负面影响，抑制参与，并损害游戏社区的长期健康发展[12 (https://arxiv.org/html/2605.24000#bib.bib24),14 (https://arxiv.org/html/2605.24000#bib.bib23),11 (https://arxiv.org/html/2605.24000#bib.bib27),24 (https://arxiv.org/html/2605.24000#bib.bib38)]。尽管开发者、研究人员和玩家广泛认识到这一问题，但它依然持续存在且难以解决[27 (https://arxiv.org/html/2605.24000#bib.bib17)]。原因之一是，有害行为形式多样，且对毒性的感知具有主观性和语境依赖性[13 (https://arxiv.org/html/2605.24000#bib.bib31)]。目前大多数干预措施仅在有害互动发生后才能做出反应[27 (https://arxiv.org/html/2605.24000#bib.bib17)]。然而，这类经历可能导致玩家完全退出游戏或游戏社区[14 (https://arxiv.org/html/2605.24000#bib.bib23),11 (https://arxiv.org/html/2605.24000#bib.bib27)]，甚至可能从一开始就阻止新玩家接触游戏[25 (https://arxiv.org/html/2605.24000#bib.bib16)]。游戏外部社区在游戏生态中扮演着重要角色，它们提供社交空间，激励玩家并可能对其心理健康产生积极影响[24 (https://arxiv.org/html/2605.24000#bib.bib38)]。

Twitch111https://www.twitch.tv/；最后访问日期：是一个流行的流媒体平台，玩家在此向直播观众广播游戏过程，创建共享的社交环境，观众通过实时聊天进行互动。虽然这促进了社区参与，但也可能助长有毒的交流。先前的研究已确定Twitch是一个毒性交流普遍存在的平台[16 (https://arxiv.org/html/2605.24000#bib.bib39)]。与游戏内环境不同，在游戏内有害互动通常与玩家表现相关，而在Twitch上，毒性行为更多地源于聊天的社交动态。尽管Twitch提供了自动内容管理工具，但管理实践在很大程度上仍是主播的责任。为支持内容管理和毒性预防，了解不同游戏类型、具体游戏以及Twitch社区中毒性行为的呈现方式至关重要。识别这些模式可以提供关于毒性行为如何随环境变化的见解，并有助于制定更有针对性的管理策略。

在这项工作中，我们分析了不同游戏社区中Twitch文本聊天的毒性行为，考察了聊天互动在不同游戏类型之间的差异，以及这些差异在毒性模式中的表现。我们构建了一个包含约2000万条聊天消息的语料库，涵盖了七个选定的Twitch类别中两个最受欢迎的游戏，并使用预训练的大语言模型（LLM）通过零样本分类将其分类为Twitch定义的毒性类型。这项工作提供了一个可复现的文本消息毒性检测与分类流程，以及对多个流行游戏类型和主播的Twitch聊天中毒性的分析。我们的研究结果揭示了Twitch社区中有害动态的见解，并可能支持改进的毒性检测与预防系统。

本文其余部分结构如下：第二部分（https://arxiv.org/html/2605.24000#S2）回顾了关于毒性检测的相关工作，包括使用LLM的研究以及针对Twitch的研究。第三部分（https://arxiv.org/html/2605.24000#S3）描述了方法论，第四部分（https://arxiv.org/html/2605.24000#S4）展示了结果。第五部分（https://arxiv.org/html/2605.24000#S5）讨论了发现与局限性，随后是第七部分（https://arxiv.org/html/2605.24000#S7）的结论。

## II 背景与相关工作

### II-A 定义毒性

先前的研究强调，毒性、仇恨言论和辱骂行为本质上具有语境依赖性且部分主观，这导致不同研究中的定义和标注方案各不相同[6 (https://arxiv.org/html/2605.24000#bib.bib30),11 (https://arxiv.org/html/2605.24000#bib.bib27),16 (https://arxiv.org/html/2605.24000#bib.bib39)]。Twitch本身在其自动内容管理中定义了四个类别的不当或有害消息，包含八个子类（参见表I（https://arxiv.org/html/2605.24000#S2.T1））。222https://help.twitch.tv/s/article/how-to-use-automod；最后访问日期：由于本研究聚焦于Twitch的数据，我们使用该分类和定义进行评估。

表 I：Twitch给出的不当或有害消息类别与子类
### II-B 基于大语言模型的毒性检测

作为广泛使用的数据处理工具，LLM已被应用于各种基于文本的数据集，包括用于毒性检测的那些[3 (https://arxiv.org/html/2605.24000#bib.bib18),8 (https://arxiv.org/html/2605.24000#bib.bib8),9 (https://arxiv.org/html/2605.24000#bib.bib7)]。

一些研究旨在通过知识图谱[31 (https://arxiv.org/html/2605.24000#bib.bib12)]、蒸馏模型[30 (https://arxiv.org/html/2605.24000#bib.bib11)]或专门针对毒性相关任务进行微调的模型[9 (https://arxiv.org/html/2605.24000#bib.bib7)]等方法来改进毒性检测。其他工作评估了LLM在检测有毒内容方面的准确性[22 (https://arxiv.org/html/2605.24000#bib.bib10),21 (https://arxiv.org/html/2605.24000#bib.bib13)]。此外，LLM已被提议作为游戏环境中的自动内容管理工具[29 (https://arxiv.org/html/2605.24000#bib.bib9)]。总体而言，先前研究表明，LLM在毒性检测中取得了有前景的性能[18 (https://arxiv.org/html/2605.24000#bib.bib3),26 (https://arxiv.org/html/2605.24000#bib.bib4)]。

### II-C Twitch上的毒性检测与内容管理

Twitch通过两种方法解决毒性问题：自动（基于AI）管理和手动管理。Gandolfi 和 Ferdig[16 (https://arxiv.org/html/2605.24000#bib.bib39)]强调了Twitch作为毒性传播平台的作用，且反驳机会很少。他们还分析了Twitch上Dota 2直播的数据。

Kim 等人[20 (https://arxiv.org/html/2605.24000#bib.bib26)]表明，Twitch用户经常通过用表情符号替换文本来绕过自动内容管理，这些表情符号人类可以理解但系统难以检测。他们编译了一个Twitch表情数据集并开发了一个视觉分类器，发现大约3.82%的Twitch聊天消息是毒性消息。

Huth 等人[19 (https://arxiv.org/html/2605.24000#bib.bib25)]提出了一个用于Twitch的实时毒性检测插件，使用Google Perspective API。333https://www.perspectiveapi.com/；最后访问日期：他们强调了内容管理方面的挑战，尤其是对于小型主播。尽管是为Twitch聊天设计的，但他们的流程是使用Jigsaw Toxic Comment Classification数据集进行评估的。444https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge；最后访问日期：

Dreier 和 Pirker[10 (https://arxiv.org/html/2605.24000#bib.bib15)]分析了36个Twitch频道和10万条消息中的毒性，考虑了直播类型、主播性别、社区规模和游戏类型。他们发现多人游戏直播中的毒性高于单人游戏直播，且射击游戏中的毒性略高。小型直播通常缺乏内容管理资源，而较大的观众群则与更多针对观众和主播的仇恨消息相关。

## III 方法论

### III-A 研究问题

本文分析了Twitch聊天中的毒性行为，重点关注社区层面的差异。我们旨在了解不同社区在观看热门直播时的行为方式，并识别它们之间的潜在差异。为使用适当的统计测量方法实现研究目标并确保透明度，我们采用了Wohlin等人[28 (https://arxiv.org/html/2605.24000#bib.bib22)]提出的目标-问题-度量（GQM）框架，并制定了以下研究问题：

见图1 图1：我们的毒性检测流程遵循四个连续步骤：数据爬取、数据预处理、基于LLM的标注和数据分析。

1. RQ1：Twitch上观众表现出的毒性行为最常见的形式是什么？
2. RQ2：Twitch上的观众毒性在不同游戏之间如何变化？
3. RQ3：Twitch上的观众毒性在不同游戏类型之间如何变化？

为解决这些问题，我们使用三组度量指标：

1. M1.1：毒性消息的比例（总体以及按毒性类别和子类划分）。
2. M1.2：毒性子类共现的频率。
3. M2.1：游戏中毒性消息的比例（总体以及按毒性类别和子类划分）。
4. M2.2：游戏之间毒性子类分布的比较。
5. M3.1：游戏类型中毒性消息的比例（总体以及按毒性类别和子类划分）。
6. M3.2：游戏类型之间毒性子类分布的比较。

### III-B 毒性类别选择

为了对有毒聊天消息进行分类，我们采用了Twitch使用的毒性分类法（参见表I（https://arxiv.org/html/2605.24000#S2.T1））。我们使用此分类法的原因有二：(1) 文献中没有普遍接受的毒性分类标准；(2) 本研究中分析的所有消息均来自Twitch聊天。我们依赖管理该交流空间的平台特定内容管理框架。通过使用Twitch的内容管理分类法，我们确保分类方案与消息产生的语境紧密对齐。

### III-C Twitch游戏类别与游戏类型选择

为创建我们的数据集，我们从Twitch上观众代表性较高的几个类别中选择了两个游戏。表II（https://arxiv.org/html/2605.24000#S3.T2）显示了基于截至2025年11月14日在Twitch上的受欢迎程度而选定的类别及对应游戏。

由于游戏的类型边界常常模糊不清，我们使用Twitch的类别系统作为选择的基础。同时，Twitch的类别并不总是将具有相似玩法或类型特征的游戏归为一组。因此，Twitch的类别标签可能导致同一标签下的游戏之间存在显著的内部差异。我们对给定的分类进行了调整，使得每个类别只包含具有可比动态的游戏。首先，我们将“策略”类别分为“多人（MP）策略”和“单人（SP）策略”，理由与已有的“多人射击”和“单人射击”分类一致：尽管它们都属于更广泛的类型范畴，但在游戏结构、节奏和玩家互动方面存在差异，这些都可能塑造聊天行为。

所有选定的游戏都用于RQ1和RQ2的分析，但只有一部分类别用于RQ3的以游戏类型为重点的分析。由于与策略相关的类别和MMO类别内部同质性较低，我们将它们排除在游戏类型比较之外。在本文其余部分，“游戏类型”一词仅用于指代这四个选定的类别，而“游戏类别”则更宽泛地指代Twitch的游戏分类。

表 II：我们在Twitch上每个类别中选定的两个最受欢迎的游戏。
### III-D 数据集生成与预处理

利用SullyGnome555https://sullygnome.com/；最后访问日期：的数据（该网站展示Twitch统计信息和分析），我们为每个游戏选择了观看量最高的50位主播。对于每位主播，我们使用TwitchDownloaderCLI666由https://github.com/lay295/TwitchDownloader提供，最后访问日期：下载了他们最近10个点播视频（VOD）的聊天记录。这生成了一个包含总计4452个直播流、20,212,682条消息和29,001小时直播时长的数据集，时间跨度为2024年6月19日至2025年11月14日。对所有消息进行标注需要约306小时的计算时间（使用四块A6000 GPU）。

在大约2000万条聊天消息中，34.7%仅由一个单词组成。为减少分类每条消息的计算开销，我们从出现频率最高的50条消息中，预先标注了客观上无害的消息，例如“hi”、“yes”或“gg”。预标注消息的完整列表可在我们的补充材料中找到[15 (https://arxiv.org/html/2605.24000#bib.bib41)]。Twitch允许主播手动设置机器人，自动向观众提供预定义信息。我们对来自已知机器人（如“Nightbot”或“StreamElements”）的消息进行了相应预标注。

表 III：每个毒性类别的示例结果（参见表I（https://arxiv.org/html/2605.24000#S2.T1））。为清晰起见，每个类别显示两条消息。
### III-E 零样本分类：有毒 vs. 无害

为自动标注一条聊天消息是否有毒，我们使用零样本分类方法，结合LLM和指令提示。由于毒性的解释通常依赖于对话上下文，我们向模型提供一个包含前10秒聊天消息的时间上下文窗口，以支持更明智的判断。

经过初步实验，我们选择了Phi4[1 (https://arxiv.org/html/2605.24000#bib.bib1)]（一个140亿参数的模型）来完成此任务。Phi4适用于毒性检测，因为与Llama3[17 (https://arxiv.org/html/2605.24000#bib.bib2)]等模型不同，它不太会被优化去拒绝或过滤辱骂性内容。其16k token的上下文窗口能够实现细致的语言理解，同时保持相对较快的推理速度。更大的模型可能提供轻微的准确率提升，但需要大量额外的计算资源。

在第一步中，我们使用表I（https://arxiv.org/html/2605.24000#S2.T1）中的标签定义，将LLM作为二元毒性分类器进行提示。

Twitch聊天中的毒性：基于LLM的跨游戏社区分析

相似文章

PSK@EEUCA 2026：利用合成数据增强微调大型语言模型以检测游戏聊天中的多类毒性

社交媒体毒性——“嘈杂的房间”

大型语言模型中的毒性测量与缓解：一项全面的复制研究

毒性幻觉：扰动提示并追踪LLM电路

内存增强型LLM智能体中的状态污染

提交意见反馈