Twitch聊天中的毒性:基于LLM的跨游戏社区分析
摘要
本文使用预训练LLM进行零样本分类,分析了约2000万条Twitch聊天信息,涵盖七种游戏类型,发现2.4%的消息具有毒性,其中MOBA游戏的毒性率最高(3.2%),体育游戏最低(2%)。研究还发现,同一类型内不同游戏之间的毒性分布存在显著差异。
arXiv:2605.24000v1 Announce Type: new
摘要:在线游戏社区中的毒性仍然是一个持续存在的挑战,体现在各种类型、平台和玩家互动中。虽然许多研究关注游戏内的毒性,但关于直播平台上不同游戏社区之间有毒行为如何变化,人们知之甚少。为了解决这一不足,我们分析了来自4,452个直播流的约2000万条聊天信息,涵盖Twitch上的七种游戏类型。我们使用预训练大型语言模型(LLM)通过零样本分类,根据Twitch的毒性分类法对信息进行分类。该分类法包括四个类别和八个子类,包括骚扰、歧视、性内容和脏话。我们的方法在TextDetox数据集上达到了94.5%的F1分数,并且人类与模型的一致性达到人与人之间的一致水平。我们的分析显示,2.4%的所有信息被归类为有毒,不同类型之间存在显著差异:MOBA游戏直播的毒性相对率最高(3.2%),体育游戏最低(2%)。此外,结果表明,即使在同一类型内,不同游戏的毒性分布也存在显著差异,这表明存在特定游戏的社区规范和机制,它们在类型效应之外塑造了有毒行为。这些发现为Twitch上类型和游戏特定的毒性模式提供了实证见解,并可为游戏社区提供更有针对性的审核策略。
查看缓存全文
缓存时间: 2026/05/26 09:00
# Twitch 聊天中的毒性:基于大语言模型的游戏社区分析 来源:https://arxiv.org/html/2605.24000 ###### 摘要 在线游戏社区中的毒性行为依然是一个持续存在的挑战,体现在不同游戏类型、平台及玩家交互中。尽管大量研究聚焦于游戏内的毒性,但关于流媒体平台上不同游戏社区之间毒性行为的差异却知之甚少。为弥补这一不足,我们分析了来自4452个直播流的约2000万条聊天消息,涵盖了Twitch上的七种游戏类型。我们使用预训练的大语言模型,通过零样本分类,依据Twitch的毒性分类法对消息进行分类。该分类法包含四个主要类别和八个子类,包括骚扰、歧视、色情内容和脏话。我们的方法在TextDetox数据集上达到了94.5%的F1分数,并且人机一致性接近人类间一致性。分析显示,所有消息中有2.4%被归类为毒性消息,不同游戏类型之间存在显著差异:MOBA游戏的直播流毒性比例最高(3.2%),而体育游戏最低(2%)。此外,结果表明,即使在相同游戏类型内,不同游戏的毒性分布也存在显著差异,这表明存在特定游戏的社区规范和机制,它们塑造了超越类型层面的毒性行为。这些发现为Twitch上基于游戏类型和特定游戏的毒性模式提供了实证见解,并可为游戏社区提供更具针对性的内容管理策略。 ††publicationid:pubid:979-8-3315-9476-3/26/$31.00 ©2026 IEEE ## I 引言 在线游戏空间已成为玩家和观众互动、形成社区并建立共同规范的重要社交环境。然而,这些环境常常受到有害行为的影响,包括骚扰、辱骂性语言和歧视。此类行为会对玩家福祉产生负面影响,抑制参与,并损害游戏社区的长期健康发展[12 (https://arxiv.org/html/2605.24000#bib.bib24),14 (https://arxiv.org/html/2605.24000#bib.bib23),11 (https://arxiv.org/html/2605.24000#bib.bib27),24 (https://arxiv.org/html/2605.24000#bib.bib38)]。尽管开发者、研究人员和玩家广泛认识到这一问题,但它依然持续存在且难以解决[27 (https://arxiv.org/html/2605.24000#bib.bib17)]。原因之一是,有害行为形式多样,且对毒性的感知具有主观性和语境依赖性[13 (https://arxiv.org/html/2605.24000#bib.bib31)]。目前大多数干预措施仅在有害互动发生后才能做出反应[27 (https://arxiv.org/html/2605.24000#bib.bib17)]。然而,这类经历可能导致玩家完全退出游戏或游戏社区[14 (https://arxiv.org/html/2605.24000#bib.bib23),11 (https://arxiv.org/html/2605.24000#bib.bib27)],甚至可能从一开始就阻止新玩家接触游戏[25 (https://arxiv.org/html/2605.24000#bib.bib16)]。游戏外部社区在游戏生态中扮演着重要角色,它们提供社交空间,激励玩家并可能对其心理健康产生积极影响[24 (https://arxiv.org/html/2605.24000#bib.bib38)]。 Twitch111https://www.twitch.tv/;最后访问日期:是一个流行的流媒体平台,玩家在此向直播观众广播游戏过程,创建共享的社交环境,观众通过实时聊天进行互动。虽然这促进了社区参与,但也可能助长有毒的交流。先前的研究已确定Twitch是一个毒性交流普遍存在的平台[16 (https://arxiv.org/html/2605.24000#bib.bib39)]。与游戏内环境不同,在游戏内有害互动通常与玩家表现相关,而在Twitch上,毒性行为更多地源于聊天的社交动态。尽管Twitch提供了自动内容管理工具,但管理实践在很大程度上仍是主播的责任。为支持内容管理和毒性预防,了解不同游戏类型、具体游戏以及Twitch社区中毒性行为的呈现方式至关重要。识别这些模式可以提供关于毒性行为如何随环境变化的见解,并有助于制定更有针对性的管理策略。 在这项工作中,我们分析了不同游戏社区中Twitch文本聊天的毒性行为,考察了聊天互动在不同游戏类型之间的差异,以及这些差异在毒性模式中的表现。我们构建了一个包含约2000万条聊天消息的语料库,涵盖了七个选定的Twitch类别中两个最受欢迎的游戏,并使用预训练的大语言模型(LLM)通过零样本分类将其分类为Twitch定义的毒性类型。这项工作提供了一个可复现的文本消息毒性检测与分类流程,以及对多个流行游戏类型和主播的Twitch聊天中毒性的分析。我们的研究结果揭示了Twitch社区中有害动态的见解,并可能支持改进的毒性检测与预防系统。 本文其余部分结构如下:第二部分(https://arxiv.org/html/2605.24000#S2)回顾了关于毒性检测的相关工作,包括使用LLM的研究以及针对Twitch的研究。第三部分(https://arxiv.org/html/2605.24000#S3)描述了方法论,第四部分(https://arxiv.org/html/2605.24000#S4)展示了结果。第五部分(https://arxiv.org/html/2605.24000#S5)讨论了发现与局限性,随后是第七部分(https://arxiv.org/html/2605.24000#S7)的结论。 ## II 背景与相关工作 ### II-A 定义毒性 先前的研究强调,毒性、仇恨言论和辱骂行为本质上具有语境依赖性且部分主观,这导致不同研究中的定义和标注方案各不相同[6 (https://arxiv.org/html/2605.24000#bib.bib30),11 (https://arxiv.org/html/2605.24000#bib.bib27),16 (https://arxiv.org/html/2605.24000#bib.bib39)]。Twitch本身在其自动内容管理中定义了四个类别的不当或有害消息,包含八个子类(参见表I(https://arxiv.org/html/2605.24000#S2.T1))。222https://help.twitch.tv/s/article/how-to-use-automod;最后访问日期:由于本研究聚焦于Twitch的数据,我们使用该分类和定义进行评估。 表 I:Twitch给出的不当或有害消息类别与子类 ### II-B 基于大语言模型的毒性检测 作为广泛使用的数据处理工具,LLM已被应用于各种基于文本的数据集,包括用于毒性检测的那些[3 (https://arxiv.org/html/2605.24000#bib.bib18),8 (https://arxiv.org/html/2605.24000#bib.bib8),9 (https://arxiv.org/html/2605.24000#bib.bib7)]。 一些研究旨在通过知识图谱[31 (https://arxiv.org/html/2605.24000#bib.bib12)]、蒸馏模型[30 (https://arxiv.org/html/2605.24000#bib.bib11)]或专门针对毒性相关任务进行微调的模型[9 (https://arxiv.org/html/2605.24000#bib.bib7)]等方法来改进毒性检测。其他工作评估了LLM在检测有毒内容方面的准确性[22 (https://arxiv.org/html/2605.24000#bib.bib10),21 (https://arxiv.org/html/2605.24000#bib.bib13)]。此外,LLM已被提议作为游戏环境中的自动内容管理工具[29 (https://arxiv.org/html/2605.24000#bib.bib9)]。总体而言,先前研究表明,LLM在毒性检测中取得了有前景的性能[18 (https://arxiv.org/html/2605.24000#bib.bib3),26 (https://arxiv.org/html/2605.24000#bib.bib4)]。 ### II-C Twitch上的毒性检测与内容管理 Twitch通过两种方法解决毒性问题:自动(基于AI)管理和手动管理。Gandolfi 和 Ferdig[16 (https://arxiv.org/html/2605.24000#bib.bib39)]强调了Twitch作为毒性传播平台的作用,且反驳机会很少。他们还分析了Twitch上Dota 2直播的数据。 Kim 等人[20 (https://arxiv.org/html/2605.24000#bib.bib26)]表明,Twitch用户经常通过用表情符号替换文本来绕过自动内容管理,这些表情符号人类可以理解但系统难以检测。他们编译了一个Twitch表情数据集并开发了一个视觉分类器,发现大约3.82%的Twitch聊天消息是毒性消息。 Huth 等人[19 (https://arxiv.org/html/2605.24000#bib.bib25)]提出了一个用于Twitch的实时毒性检测插件,使用Google Perspective API。333https://www.perspectiveapi.com/;最后访问日期:他们强调了内容管理方面的挑战,尤其是对于小型主播。尽管是为Twitch聊天设计的,但他们的流程是使用Jigsaw Toxic Comment Classification数据集进行评估的。444https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge;最后访问日期: Dreier 和 Pirker[10 (https://arxiv.org/html/2605.24000#bib.bib15)]分析了36个Twitch频道和10万条消息中的毒性,考虑了直播类型、主播性别、社区规模和游戏类型。他们发现多人游戏直播中的毒性高于单人游戏直播,且射击游戏中的毒性略高。小型直播通常缺乏内容管理资源,而较大的观众群则与更多针对观众和主播的仇恨消息相关。 ## III 方法论 ### III-A 研究问题 本文分析了Twitch聊天中的毒性行为,重点关注社区层面的差异。我们旨在了解不同社区在观看热门直播时的行为方式,并识别它们之间的潜在差异。为使用适当的统计测量方法实现研究目标并确保透明度,我们采用了Wohlin等人[28 (https://arxiv.org/html/2605.24000#bib.bib22)]提出的目标-问题-度量(GQM)框架,并制定了以下研究问题: 见图1 图1:我们的毒性检测流程遵循四个连续步骤:数据爬取、数据预处理、基于LLM的标注和数据分析。 1. RQ1:Twitch上观众表现出的毒性行为最常见的形式是什么? 2. RQ2:Twitch上的观众毒性在不同游戏之间如何变化? 3. RQ3:Twitch上的观众毒性在不同游戏类型之间如何变化? 为解决这些问题,我们使用三组度量指标: 1. M1.1:毒性消息的比例(总体以及按毒性类别和子类划分)。 2. M1.2:毒性子类共现的频率。 3. M2.1:游戏中毒性消息的比例(总体以及按毒性类别和子类划分)。 4. M2.2:游戏之间毒性子类分布的比较。 5. M3.1:游戏类型中毒性消息的比例(总体以及按毒性类别和子类划分)。 6. M3.2:游戏类型之间毒性子类分布的比较。 ### III-B 毒性类别选择 为了对有毒聊天消息进行分类,我们采用了Twitch使用的毒性分类法(参见表I(https://arxiv.org/html/2605.24000#S2.T1))。我们使用此分类法的原因有二:(1) 文献中没有普遍接受的毒性分类标准;(2) 本研究中分析的所有消息均来自Twitch聊天。我们依赖管理该交流空间的平台特定内容管理框架。通过使用Twitch的内容管理分类法,我们确保分类方案与消息产生的语境紧密对齐。 ### III-C Twitch游戏类别与游戏类型选择 为创建我们的数据集,我们从Twitch上观众代表性较高的几个类别中选择了两个游戏。表II(https://arxiv.org/html/2605.24000#S3.T2)显示了基于截至2025年11月14日在Twitch上的受欢迎程度而选定的类别及对应游戏。 由于游戏的类型边界常常模糊不清,我们使用Twitch的类别系统作为选择的基础。同时,Twitch的类别并不总是将具有相似玩法或类型特征的游戏归为一组。因此,Twitch的类别标签可能导致同一标签下的游戏之间存在显著的内部差异。我们对给定的分类进行了调整,使得每个类别只包含具有可比动态的游戏。首先,我们将“策略”类别分为“多人(MP)策略”和“单人(SP)策略”,理由与已有的“多人射击”和“单人射击”分类一致:尽管它们都属于更广泛的类型范畴,但在游戏结构、节奏和玩家互动方面存在差异,这些都可能塑造聊天行为。 所有选定的游戏都用于RQ1和RQ2的分析,但只有一部分类别用于RQ3的以游戏类型为重点的分析。由于与策略相关的类别和MMO类别内部同质性较低,我们将它们排除在游戏类型比较之外。在本文其余部分,“游戏类型”一词仅用于指代这四个选定的类别,而“游戏类别”则更宽泛地指代Twitch的游戏分类。 表 II:我们在Twitch上每个类别中选定的两个最受欢迎的游戏。 ### III-D 数据集生成与预处理 利用SullyGnome555https://sullygnome.com/;最后访问日期:的数据(该网站展示Twitch统计信息和分析),我们为每个游戏选择了观看量最高的50位主播。对于每位主播,我们使用TwitchDownloaderCLI666由https://github.com/lay295/TwitchDownloader提供,最后访问日期:下载了他们最近10个点播视频(VOD)的聊天记录。这生成了一个包含总计4452个直播流、20,212,682条消息和29,001小时直播时长的数据集,时间跨度为2024年6月19日至2025年11月14日。对所有消息进行标注需要约306小时的计算时间(使用四块A6000 GPU)。 在大约2000万条聊天消息中,34.7%仅由一个单词组成。为减少分类每条消息的计算开销,我们从出现频率最高的50条消息中,预先标注了客观上无害的消息,例如“hi”、“yes”或“gg”。预标注消息的完整列表可在我们的补充材料中找到[15 (https://arxiv.org/html/2605.24000#bib.bib41)]。Twitch允许主播手动设置机器人,自动向观众提供预定义信息。我们对来自已知机器人(如“Nightbot”或“StreamElements”)的消息进行了相应预标注。 表 III:每个毒性类别的示例结果(参见表I(https://arxiv.org/html/2605.24000#S2.T1))。为清晰起见,每个类别显示两条消息。 ### III-E 零样本分类:有毒 vs. 无害 为自动标注一条聊天消息是否有毒,我们使用零样本分类方法,结合LLM和指令提示。由于毒性的解释通常依赖于对话上下文,我们向模型提供一个包含前10秒聊天消息的时间上下文窗口,以支持更明智的判断。 经过初步实验,我们选择了Phi4[1 (https://arxiv.org/html/2605.24000#bib.bib1)](一个140亿参数的模型)来完成此任务。Phi4适用于毒性检测,因为与Llama3[17 (https://arxiv.org/html/2605.24000#bib.bib2)]等模型不同,它不太会被优化去拒绝或过滤辱骂性内容。其16k token的上下文窗口能够实现细致的语言理解,同时保持相对较快的推理速度。更大的模型可能提供轻微的准确率提升,但需要大量额外的计算资源。 在第一步中,我们使用表I(https://arxiv.org/html/2605.24000#S2.T1)中的标签定义,将LLM作为二元毒性分类器进行提示。
相似文章
PSK@EEUCA 2026:利用合成数据增强微调大型语言模型以检测游戏聊天中的多类毒性
本文介绍了一个用于 EEUCA 2026 游戏聊天毒性检测共享任务的系统,该系统通过结合合成数据增强微调 Llama 3.1 8B 模型,获得了第四名。文章重点阐述了一种“验证陷阱”现象:由于数据分布偏移,较高的验证分数与测试集表现并不相关。
社交媒体毒性——“嘈杂的房间”
一项斯坦福大学研究分析了数十亿条社交媒体帖子后发现,仅约3%的用户会发布严重有害内容,但互动驱动型算法不成比例地放大了这部分少数声音,从而扭曲公众认知,并导致大多数用户被迫自我审查。
大型语言模型中的毒性测量与缓解:一项全面的复制研究
这项复制研究评估了DExperts在缓解LLM毒性方面的效果,发现其对显式毒性几乎完美安全,但对隐式仇恨言论效果降低,并且存在显著的延迟权衡。
毒性幻觉:扰动提示并追踪LLM电路
本文研究了提示中的毒性词汇扰动如何降低LLM的事实准确性并增加不确定性,并使用归因图分析追踪内部变化。研究发现,增加毒性会放大对扰动敏感的变异节点,而核心推理节点保持不变。
内存增强型LLM智能体中的状态污染
本文识别并研究了LLM智能体中的“记忆洗白”现象,即有毒或对抗性上下文被压缩成记忆摘要后,能够逃避标准毒性检测器,同时仍影响后续生成。文章引入了亚阈值传播间隙(SPG)来衡量隐藏的下游影响,并表明在摘要之前对有毒状态进行消毒比事后清理更有效。