超越静态基准：基于角色模拟合成有害内容以实现鲁棒性评估

arXiv cs.CL 2026/04/21 04:00 论文

harmful-content-detection llm-agents persona-simulation benchmark safety synthetic-data evaluation

摘要

# 超越静态基准：基于角色模拟合成有害内容以实现鲁棒性评估 Source: [https://arxiv.org/html/2604.17020](https://arxiv.org/html/2604.17020) Huije Lee Jisu Shin Hoyun Song Changgeon Ko Jong C\. Park Korea Advanced Institute of Science and Technology \(KAIST\) \{huijelee,jisu\.shin,hysong,pencaty,jongpark\}@kaist\.ac\.kr ###### Abstract 面向有害内容检测的静态基准在可扩展性与多样性方面存在局限，且可能受...

arXiv:2604.17020v1 公告类型: new 摘要：面向有害内容检测的静态基准在可扩展性与多样性方面存在局限，且可能受到大规模网络预训练语料污染的影响。为解决上述问题，我们提出了一种利用基于角色引导的大型语言模型（LLM）智能体来合成有害内容的框架。该方法通过整合人口统计特征、话题兴趣与情境化有害策略，构建出二维用户画像，从而能够模拟多样化且具有上下文关联性的有害交互行为。我们从危害程度、挑战难度和多样性三个维度对框架进行评估。人工评估与基于 LLM 的评估结果均表明，该框架能够实现较高的有害内容生成成功率。在多种检测系统上的实验表明，相较于现有基准测试中的场景，我们合成的场景更难被检测出来。此外，多维度分析证实，我们的方法在语言和话题多样性上可与人工编纂的数据集相媲美，确立了该框架作为有害内容检测系统鲁棒性压力测试的有效工具。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/21 07:05

# 超越静态基准：基于角色模拟合成有害内容以实现鲁棒评估 来源：https://arxiv.org/html/2604.17020 Huije Lee Jisu Shin Hoyun Song Changgeon Ko Jong C. Park 韩国科学技术院 (KAIST) {huijelee,jisu.shin,hysong,pencaty,jongpark}@kaist.ac.kr

###### 摘要
现有的有害内容检测静态基准在可扩展性和多样性方面存在局限，且可能受到大规模预训练语料库污染的影响。为解决这些问题，我们提出了一种基于角色引导的大型语言模型（LLM）智能体合成有害内容的框架。我们的方法通过整合人口统计身份、主题兴趣与情境性有害策略，构建二维用户角色，从而模拟多样化且具有上下文背景的有害交互。我们从有害程度、挑战级别和多样性三个维度对该框架进行评估。人工与基于LLM的评估均证实，该框架实现了较高的有害内容生成成功率。在多个检测系统中的实验表明，我们合成的场景比现有基准中的场景更难检测。此外，多维度分析证实，我们的方法在语言和主题多样性上可达到与人工整理数据集相当的水平，确立了该框架作为有害内容检测系统鲁棒压力测试有效工具的地位111我们的数据集已公开发布于 https://github.com/huijelee/synthesizing_harmful_content。

超越静态基准：基于角色模拟合成有害内容以实现鲁棒评估 Huije Lee Jisu Shin Hoyun Song Changgeon Ko Jong C. Park††感谢：通讯作者 韩国科学技术院 (KAIST) {huijelee,jisu.shin,hysong,pencaty,jongpark}@kaist.ac.kr

## 1 引言
网络有害内容（如毒性言论和仇恨言论）助长了敌意，阻碍了健康安全的交流。为降低这些风险，研究者开发了多种检测系统，包括大型语言模型（LLMs）Cho 等. (2024 (https://arxiv.org/html/2604.17020#bib.bib21)); Cima 等. (2025 (https://arxiv.org/html/2604.17020#bib.bib22))。通常，这些系统在由专家策划或从在线平台收集的测试实例组成的公开基准上进行评估Wulczyn 等. (2017 (https://arxiv.org/html/2604.17020#bib.bib6)); Qian 等. (2019 (https://arxiv.org/html/2604.17020#bib.bib11)); Song 等. (2021 (https://arxiv.org/html/2604.17020#bib.bib42))。然而，依赖此类静态基准存在若干局限性。测试实例的人工策划限制了可扩展性，在扩展或更新基准以跟上模型快速发展方面造成瓶颈Markov 等. (2023 (https://arxiv.org/html/2604.17020#bib.bib67))。由于多样性有限，静态基准也无法捕捉现实世界伤害的复杂性。它们往往缺乏对新出现的社会问题的主题覆盖He 等. (2021 (https://arxiv.org/html/2604.17020#bib.bib15)); Nghiem and Morstatter (2021 (https://arxiv.org/html/2604.17020#bib.bib10))，以及在语气、语言风格和复杂恶意行为方面的表达多样性Ali 等. (2025 (https://arxiv.org/html/2604.17020#bib.bib70))。因此，在此类基准上评估的模型可能在常见模式上表现良好，却会遗漏罕见但关键的有害行为。公开可用的基准也可能受到大规模预训练语料库污染的影响Golchin and Surdeanu (2024 (https://arxiv.org/html/2604.17020#bib.bib7)); Deng 等. (2024 (https://arxiv.org/html/2604.17020#bib.bib1))，这进一步凸显了使用全新动态生成场景进行评估的必要性。

为解决上述局限，我们提出了一种合成有害内容的框架，可实现对检测模型的鲁棒评估。我们的框架不依赖固定语料库，而是采用参与真实讨论线程的LLM智能体，灵活生成针对特定主题和风格的有害内容，从而针对未知且不断演变的威胁进行评估。虽然合成数据提供了实现可扩展性的路径Hartvigsen 等. (2022 (https://arxiv.org/html/2604.17020#bib.bib8))，但现有的提示方法容易产生刻板、简单且重复的内容，无法反映人类行为的多样性Shi 等. (2023 (https://arxiv.org/html/2604.17020#bib.bib41)); Jiao 等. (2025 (https://arxiv.org/html/2604.17020#bib.bib48))。为提升多样性，我们引入了一种基于二维角色的LLM仿真方法。基于真实用户在保持身份一致性的同时会根据不同情境调整行为这一观察Cheng 等. (2017 (https://arxiv.org/html/2604.17020#bib.bib68)); Alvisi 等. (2025 (https://arxiv.org/html/2604.17020#bib.bib69))，我们从两个独立维度构建角色：内在特征（人口统计身份与主题兴趣）和外在特征（情境交互策略）。通过模拟多样化的角色引导智能体，我们的框架能够生成既扎根于上下文又具有策略多样性的有害内容。

我们通过聚焦有害程度、挑战级别和多样性的多维度分析验证了框架的有效性。首先，LLM与人工评估均确认了极高的有害内容生成成功率。其次，我们评估了现有安全分类器的检测性能，发现我们的框架揭示了传统基准所忽视的难以检测的案例。最后，我们进行了全面的多样性分析，表明我们的框架达到了与人工整理数据集相当的多样性水平。进一步的详细分析证实，二维角色的集成对提升语言和主题的多样性起到了关键作用。综上所述，结果表明我们的框架为有害内容检测系统的鲁棒评估提供了一种有效工具。我们的贡献主要有三方面：
- •我们提出了一种合成有害内容的框架，利用二维用户角色来促进对有害内容检测系统的鲁棒评估。
- •我们证明了该方法的有效性，在达到与人工整理数据集相当多样性的同时，实现了极高的有害内容生成成功率。
- •我们展示了该框架如何作为一种鲁棒评估工具，通过揭示传统基准所忽略的难检测案例发挥作用。

## 2 相关工作
#### 有害内容的静态基准
早期关于有害内容的研究依赖于静态基准Wulczyn 等. (2017 (https://arxiv.org/html/2604.17020#bib.bib6)); Gehman 等. (2020 (https://arxiv.org/html/2604.17020#bib.bib43)); Song 等. (2021 (https://arxiv.org/html/2604.17020#bib.bib42))。这些基准要么通过收集在线平台的数据构建Qian 等. (2019 (https://arxiv.org/html/2604.17020#bib.bib11)); Lee 等. (2022 (https://arxiv.org/html/2604.17020#bib.bib14))，要么通过专家主导的策划完成Chung 等. (2019 (https://arxiv.org/html/2604.17020#bib.bib12)); Fanton 等. (2021 (https://arxiv.org/html/2604.17020#bib.bib13))。此类数据集对模型训练至关重要，随后也成为评估大型语言模型（LLMs）零样本能力的基准Lee 等. (2022 (https://arxiv.org/html/2604.17020#bib.bib25)); Tekiroğlu 等. (2022 (https://arxiv.org/html/2604.17020#bib.bib18)); Furman 等. (2023 (https://arxiv.org/html/2604.17020#bib.bib16)); Gupta 等. (2023 (https://arxiv.org/html/2604.17020#bib.bib17)); Cima 等. (2025 (https://arxiv.org/html/2604.17020#bib.bib22)); Gai 等. (2025 (https://arxiv.org/html/2604.17020#bib.bib82))。然而，依赖固定基准存在局限性。随着大规模预训练的兴起，数据污染构成了重大的有效性威胁，因为模型在训练过程中很可能遇到测试实例Golchin and Surdeanu (2024 (https://arxiv.org/html/2604.17020#bib.bib7))。此外，人工策划缺乏可扩展性与效率，难以跟上LLMs的快速演进Penedo 等. (2024 (https://arxiv.org/html/2604.17020#bib.bib29)); Common Crawl (2025 (https://arxiv.org/html/2604.17020#bib.bib27))。静态数据集同样无法捕捉毒性的演变性质，缺乏代表性新兴社会问题和微妙有害行为的多样性。

#### 合成数据生成
为解决数据稀缺和评估僵化的问题，研究人员越来越多地转向合成数据生成Yehudai 等. (2024 (https://arxiv.org/html/2604.17020#bib.bib80)); Cheng 等. (2024 (https://arxiv.org/html/2604.17020#bib.bib78)); Shi 等. (2025b (https://arxiv.org/html/2604.17020#bib.bib76)); Kim 等. (2025 (https://arxiv.org/html/2604.17020#bib.bib79)); Su 等. (2025 (https://arxiv.org/html/2604.17020#bib.bib77)); Song 等. (2026 (https://arxiv.org/html/2604.17020#bib.bib75))。Vidgen 等. (2021 (https://arxiv.org/html/2604.17020#bib.bib71)) 引入了一个涉及人机协同标注的动态对抗生成框架，以暴露模型漏洞。在此基础上，近期工作逐渐转向完全使用LLM进行自动化生成。ToxiGenHartvigsen 等. (2022 (https://arxiv.org/html/2604.17020#bib.bib8)) 采用了基于示例的提示方法，而Shu 等. (2023 (https://arxiv.org/html/2604.17020#bib.bib41)) 结合了越狱提示与少样本示例来诱导有害内容。更多近期工作（如ToxicraftHui 等. (2024b (https://arxiv.org/html/2604.17020#bib.bib62))）旨在通过从种子示例系统化地细化主题和上下文来提升多样性。ToxilabHui 等. (2024a (https://arxiv.org/html/2604.17020#bib.bib61)) 微调开源LLMs 以缩小其与闭源模型的质量差距。尽管取得这些进展，生成多样化的有害内容仍然具有挑战性。经过安全对齐的LLMs经常拒绝生成有害内容，且成功输出的内容通常呈现刻板或简单的模式，缺乏语言和主题上的差异。

#### 基于角色的仿真
近期的智能体仿真研究表明，LLMs 具备通过角色实例化模拟复杂社会动态和真实用户行为的潜力Park 等. (2022 (https://arxiv.org/html/2604.17020#bib.bib45), 2023 (https://arxiv.org/html/2604.17020#bib.bib46)); Gao 等. (2023 (https://arxiv.org/html/2604.17020#bib.bib47)); Shi 等. (2025a (https://arxiv.org/html/2604.17020#bib.bib81))。虽然这些研究侧重于一般社交互动，但我们将该范式适应于安全评估。除了使用仅由人口统计属性定义的角色外，我们还融入了代表行为策略的元素，以构建上下文丰富且多样的有害场景。该方法基于真实用户保持身份一致并适应不同情境的观察Cheng 等. (2017 (https://arxiv.org/html/2604.17020#bib.bib68)); Alvisi 等. (2025 (https://arxiv.org/html/2604.17020#bib.bib69))。因此，我们将角色设计概念化为包含内在特征（固有身份与兴趣）和外在特征（交互策略），从而支持生成多样化且复杂的有害内容。

## 3 方法
在本节中，我们将介绍基于角色的有害内容生成框架。该框架由两个部分组成。首先，我们合成用于仿真的用户角色。随后，角色引导的智能体在在线社区讨论线程中进行交互，以生成有害内容。

### 3.1 角色设计
在我们的框架中，角色是对潜在在线参与者的一种结构化描述。该档案详细列出了一组一致的用户特征，包括身份属性和行为倾向，这些因素决定了参与者将如何参与讨论。我们使用两个互补组件来落实这一概念：内在特征（编码一致的身份与兴趣信号）和外在特征（编码情境性有害交互策略）。

#### 内在特征 ($a_{in}$)
内在特征定义了智能体的身份标识特性。每个内在角色都表示为一个结构化的用户档案，总结用户的个人信息和活动历史。这些属性分为两类：个人背景和行为模式。个人背景捕获人口统计和兴趣相关信息，包括用户名、账户年龄、简介、主要兴趣类别、常访问的子版块以及最近访问的子版块。行为模式描述用户的典型交互方式，例如知识背景和典型评论长度。这些组件将智能体的行为锚定在连贯的身份上，使生成的内容能够反映差异化的兴趣、语气和交互风格。

我们使用LLM $\mathcal{M}_{in}$ 根据种子社区线程 $th$、用户类型 $u$（即新用户、普通用户或长期用户）、常访问子版块 $s_{top}$ 以及最近访问的子版块 $s_{recent}$ 来合成内在角色。线程 $th$（包含来自任意子版块的帖子及其评论）用作生成人口统计和行为属性的种子，而子版块列表则指导主题兴趣的创建，以确保不同角色之间的可变性。生成过程形式化如下：
$a_{in} = \mathcal{M}_{in}(th, u, s_{top}, s_{recent})$，其中 $a_{in}$ 表示生成的结构化内在档案。

该档案的示例如下所示：
1. 个人背景
• 用户名：PixelPioneer
• 账户年龄：2年
• 简介：我是一名来自多伦多的27岁自由平面设计师。空闲时间大多花在探索新艺术技巧和沉浸式RPG游戏上。……通常在深夜和周末上线。目前单身，享受像素级生活。
• 主要主题：爱好与职业、娱乐、科技
• 最活跃版块：r/flipline, r/AyakaMains, r/Mamiya
• 最近访问：r/intothedead22
2. 行为模式
• 知识背景：拥有大量游戏文化知识，尤其是主机游戏，来自无数次游玩和社区讨论。
• 典型文本长度：1-2句

其他内在角色示例见附录B.3 (https://arxiv.org/html/2604.17020#A2.SS3)。

#### 外在特征 ($a_{ex}$)
如果内在特征决定了智能体“是谁”，那么外在特征则定义了智能体“如何在给定情境中选择交互”。这些特征明确了智能体的沟通或有害策略，并作为引导生成朝着目标导向甚至破坏性行为发展的条件。每个外在特征表示为 $a_{ex}=(h,d,e)$，其中 $h$ 表示有害策略的类型，$d$ 提供底层意图的自然语言描述，$e$ 包含示例用法，展示该策略在上下文中的体现方式。这些组件指导生成代理产出目的明确、策略一致的有害内容。以下是一个角色示例：
交互策略
• 策略：Shocking（震撼）
• 描述：利用敏感或有争议的话题引发情绪反应
• 示例：线程上下文：r/NarcoFootage，Looking for vide

超越静态基准：基于角色模拟合成有害内容以实现鲁棒性评估

相似文章

MANTRA：为工具使用型 LLM 代理综合生成经 SMT 验证的合规基准

超越静态人格：大型语言模型的情境人格引导

MemEvoBench：LLM 代理内存误演化基准测试

LLM智能体可预测社交媒体反应但仍不敌文本分类器：基于1511人12万+人格的仿真准确性基准测试

轻量级风格一致性分析：用于多媒体内容审核的大语言模型生成文本鲁棒性检测

提交意见反馈