BIASEDTALES-ML：用于分析大语言模型生成故事中叙事属性分布的多语言数据集

arXiv cs.CL 2026/04/21 04:00 论文

bias-detection multilingual llm dataset narrative-generation ai-safety children-stories

摘要

# BIASEDTALES-ML：用于分析大语言模型生成故事中叙事属性分布的多语言数据集来源：[https://arxiv.org/html/2604.17008](https://arxiv.org/html/2604.17008) Yuxuan Ouyang1,Yingfeng Luo1,Tong Xiao1,2,Jingbo Zhu1,2 1中国沈阳东北大学计算机科学与工程学院 2中国沈阳 NiuTrans Research [email protected] {xiaotong,zhujingbo}@mail.neu.edu.cn ###### 摘要大型语言模型（LLM）正日益被广泛用

arXiv:2604.17008v1 公告类型：新发布摘要：大型语言模型（LLM）正被广泛应用于生成各类叙事内容，其中包括在社会与文化学习中发挥重要作用的儿童故事。尽管人工智能安全与对齐领域的关注度持续攀升，但现有评估大多仍局限于英语，导致已对齐模型在跨语言场景下的泛化能力尚未得到充分探索。在本研究中，我们推出了 BiasedTales-ML，这是一个涵盖约 35 万篇儿童故事的大型平行语料库。该数据采用全排列提示策略生成，覆盖八种在语言类型与文化背景上差异巨大的语种。我们提出了一套结构化的生成器-提取器流水线以及多维分布分析框架，旨在考察叙事属性如何随语言、模型及社会条件的变化而演变。分析结果表明，叙事生成模式存在显著的跨语言波动性，这表明英语环境中观察到的分布规律在其他语言（尤其是低资源场景）中并不完全适用。在叙事层面，我们识别出反复出现的涉及角色分工、场景设定与主题重心的结构模式，且这些模式会因语言语境的不同而呈现差异化表现。上述发现揭示了以英语为中心的评价体系在多语言环境下剖析具社会属性的叙事生成时存在的局限性。目前，我们已公开该数据集、相关代码及交互式可视化工具，以期推动后续针对多语言叙事的分析与评估研究。

查看原文

查看缓存全文

缓存时间: 2026/04/21 07:05

# BIASEDTALES-ML：用于分析LLM生成故事中叙事属性分布的多语言数据集
来源：https://arxiv.org/html/2604.17008
欧阳雨轩1，罗英峰1，肖桐1,2，朱景波1,2 1中国沈阳东北大学计算机科学与工程学院 2中国沈阳牛Trans研究 [email protected] {xiaotong,zhujingbo}@mail.neu.edu.cn

###### 摘要

大型语言模型（LLM）越来越多地被用于生成叙事内容，包括儿童故事，这些故事在社会和文化学习中扮演着重要角色。尽管人们对AI安全性和对齐的关注日益增加，但大多数现有评估主要集中在英语上，导致对齐行为的跨语言泛化尚未得到充分探索。在本工作中，我们引入了BIASEDTALES-ML，这是一个大规模并行语料库，包含约35万篇儿童故事，使用全排列提示设计在八种类型学和文化上多样化的语言中生成。我们提出了一种结构化的生成器-提取器流水线和多维分布分析框架，以检查叙事属性如何随语言、模型和社会条件变化。我们的分析揭示了叙事生成模式存在显著的跨语言差异，表明在英语中观察到的分布并不总是在其他语言中表现出相似的特征，特别是在低资源设置下。在叙事层面，我们识别出涉及角色、场景和主题侧重点的重复性结构模式，这些模式在不同语言环境中以不同方式呈现。这些发现突显了以英语为中心的评估在描述多语言环境中有社会根基的叙事生成方面的局限性。我们发布了数据集、代码以及一个交互式可视化工具，以支持未来的多语言叙事分析和评估研究。111https://huggingface.co/spaces/Linyuana/BIASEDTALES-ML

BIASEDTALES-ML：用于分析LLM生成故事中叙事属性分布的多语言数据集

欧阳雨轩1，罗英峰1，肖桐1,2††thanks:Corresponding author\., 朱景波1,2
1中国沈阳东北大学计算机科学与工程学院
2中国沈阳牛Trans研究
[email protected] {xiaotong,zhujingbo}@mail.neu.edu.cn

## 1 引言

叙事文本在社会知识和文化规范的构建中扮演着重要角色，尤其在幼儿阶段(Caliskan et al.,2017 (https://arxiv.org/html/2604.17008#bib.bib5); Cooper,2014 (https://arxiv.org/html/2604.17008#bib.bib6))。通过故事，读者会接触到关于社会角色、职业、环境和身份的隐性假设，这些因素共同塑造了他们对外部世界的认知。随着大型语言模型（LLM）在各个领域的快速发展(Achiam et al.,2023 (https://arxiv.org/html/2604.17008#bib.bib1); Team,2025 (https://arxiv.org/html/2604.17008#bib.bib25); Luo et al.,2025 (https://arxiv.org/html/2604.17008#bib.bib16))，这些模型正越来越多地应用于儿童故事生成等创意任务(BedtimeStory.ai,2023 (https://arxiv.org/html/2604.17008#bib.bib2); Srivastava,2023 (https://arxiv.org/html/2604.17008#bib.bib24))。随着LLM逐渐成为教育和文化内容的主要来源(Kobie,2023 (https://arxiv.org/html/2604.17008#bib.bib10))，理解这些生成叙事中嵌入的社会属性及潜在偏见已成为一项关键的研究挑战。

先前关于语言模型社会偏见的工作主要集中于句子补全或分类等短文本任务，且大多围绕英语展开(Nadeem et al.,2020 (https://arxiv.org/html/2604.17008#bib.bib18); Caliskan et al.,2017 (https://arxiv.org/html/2604.17008#bib.bib5))。尽管这些研究提供了宝贵的见解，但它们在捕捉长篇叙事生成中出现的偏见方面存在局限，因为在长文中，社会属性是通过角色、场景和情节结构间接表达的。此外，目前尚不清楚此类叙事层面的模式如何在不同语言之间进行泛化，尤其是在多语言和低资源设置下。

参见图1说明：BIASEDTALES-ML数据集的全球覆盖范围与语言多样性。我们策略性地选择了八种语言以最大化文化和类型学覆盖范围。地图高亮显示了主要区域：(1) 高资源全球语言（如英语、中文、西班牙语）；(2) 具有语法性别系统的语言（如阿拉伯语、俄语）；以及(3) 独特的文化叙事语言（如斯瓦希里语、日语）。颜色编码的区域展示了该数据集探测西方中心主义语境之外偏见的潜力。在本研究中，我们探讨多语言故事生成中的社会属性分布。我们聚焦于儿童故事这一受控但富有表现力的叙事领域：它们鼓励积极和富有想象力的内容，同时仍要求模型对角色、环境和社交角色做出结构化选择。为了促进系统性分析，我们引入了BIASEDTALES-ML，这是一个大规模多语言语料库，包含约35万篇机器生成的儿童故事，跨越八种类型学和文化上多样化的语言（图1 (https://arxiv.org/html/2604.17008#S1.F1)）。该数据集采用跨语言和跨模型的系统提示设计构建，从而能够实现受控的跨语言比较。

除了数据集构建，我们还提出了一种用于分析生成故事中叙事层面社会属性的评估框架。我们的方法采用生成器-提取器流水线来识别重复出现的角色特征、场景和主题元素，使我们能够量化不同语言、模型和条件变量之间的分布差异。该框架超越了表面级别的毒性检测或基于关键词的偏见检测，转而针对叙事生成中的结构性模式。

利用BIASEDTALES-ML，我们对多语言故事生成进行了系统的实证研究。我们的分析揭示了语言和资源条件之间存在一致的分布差异，表明叙事中的社会属性表达对语言环境敏感。这些发现凸显了对生成模型在有社会根基的任务中行为进行多语言评估的重要性。

综上所述，本文的主要贡献如下：
- 我们推出了BIASEDTALES-ML，一个面向叙事偏见分析的大规模多语言平行儿童故事数据集。
- 我们提出了一套通用的评估框架，用于提取和比较长篇故事生成中的社会属性分布。
- 我们展示了多语言叙事生成的实证分析，证明了社会属性表达中存在系统的跨语言变异。

## 2 相关工作

### 2.1 故事讲述中的社会偏见

大型语言模型生成连贯叙事的能力使得故事讲述成为研究隐性社会偏见的重要领域。Lucy和Bamman (2021 (https://arxiv.org/html/2604.17008#bib.bib14)) 早期研究了GPT-3生成故事中的性别表征，发现女性角色更常与家庭环境和被动角色相关联。近期，Rooein等人 (2025 (https://arxiv.org/html/2604.17008#bib.bib22)) 推出了Biased Tales数据集，用于分析儿童故事中的文化和主题偏见。他们的分析表明，与非西方儿童相关的叙事往往比现代主题更频繁地强调传统主题。然而，这类工作及相关研究(Rooein et al.,2023 (https://arxiv.org/html/2604.17008#bib.bib21)) 大多集中于英语或少数几种高资源语言。相比之下，本研究考虑多语言叙事生成，并在八种语言中采用全排列设计，从而能够分析语言媒介与文化条件之间的解耦效应。

### 2.2 AI对齐的英语中心主义

越来越多的研究指出，当前的自然语言处理系统与评估实践具有英语中心主义特征(Bender et al.,2021 (https://arxiv.org/html/2604.17008#bib.bib3); Blodgett et al.,2020 (https://arxiv.org/html/2604.17008#bib.bib4))。对齐和安全技术通常使用英语数据和西方规范性框架进行开发与验证(Hershcovich et al.,2022 (https://arxiv.org/html/2604.17008#bib.bib9))。因此，多项研究报告了多语言环境下的安全行为不均匀。例如，Yong等人 (2025 (https://arxiv.org/html/2604.17008#bib.bib27)) 观察到，安全措施往往是事后应对性的，低资源语言获得的系统性覆盖较少。我们的工作通过考察英语叙事生成中观察到的价值观相关模式与其他语言产出之间的对比，为此讨论做出了贡献。

### 2.3 超越静态基准

大多数先前的社会偏见评估依赖于静态基准，如StereoSet(Nadeem et al.,2020 (https://arxiv.org/html/2604.17008#bib.bib18))或BBQ(Parrish et al.,2022 (https://arxiv.org/html/2604.17008#bib.bib20))，这些基准将偏见检测框定为分类或多选题任务。虽然这些基准有利于受控比较，但它们能在多大程度上反映现实生成环境中的行为已受到质疑。Lum等人 (2025 (https://arxiv.org/html/2604.17008#bib.bib15)) 认为，标准偏见基准上的性能与模型在复杂下游应用中的行为相关性较弱，并将这些称为未能捕捉现实世界影响的“技巧测试”。受此批判启发，我们的研究通过长篇叙事生成来评估偏见，允许分析仅在扩展、富含上下文的输出中才会浮现的模式。

### 2.4 跨语言安全迁移

最近的研究考察了英语中实现的安全对齐能否迁移到其他语言。尽管来自人类反馈的强化学习(RLHF)(Ouyang et al.,2022 (https://arxiv.org/html/2604.17008#bib.bib19))改善了英语中的安全性能，但多项工作报告了多语言环境下鲁棒性的下降。Wei等人 (2023 (https://arxiv.org/html/2604.17008#bib.bib26)) 将“错配泛化（mismatched generalization）”描述为一种常见的失效模式，而Deng等人 (2023 (https://arxiv.org/html/2604.17008#bib.bib7)) 表明基于翻译的提示可以绕过以英语为中心的安全机制。同样，Shen等人 (2024 (https://arxiv.org/html/2604.17008#bib.bib23)) 发现对齐数据中代表性不足的语言生成了更高比例的不安全内容。该文献大多关注对抗性或恶意用例，例如指令遵循失败。相比之下，本研究考察非对抗性叙事生成中的表征安全，分析当语言媒介发生变化时，与价值观相关的模式如何演变。

## 3 BIASEDTALES-ML数据集

为了实现对多语言故事生成中社会属性的系统分析，我们构建了BIASEDTALES-ML，这是一个包含349,920篇机器生成儿童故事的大规模并行语料库。该数据集的设计旨在支持受控的跨语言比较，其依赖于原生生成而非基于翻译的基准测试，因为后者可能会掩盖特定语言的规律。

### 3.1 提示设计与本地化

我们采用标准化的提示模板，在确保跨语言可比性的同时允许流畅自然的生成。每个提示包含两个部分：身份定义（指定角色和上下文属性）和任务指令（请求生成儿童故事）。
为保持跨语言的语义等效性，模板由母语人士本地化为八种目标语言。该过程侧重于保持一致的叙事意图和属性规范，而非逐字翻译。详细的提示结构与本地化指南见附录A (https://arxiv.org/html/2604.17008#A1)，多语言示例见附录D (https://arxiv.org/html/2604.17008#A4)。

### 3.2 语言与文化因素的覆盖

该数据集通过系统地改变各因素，旨在剥离语言形式与文化内容。我们选择了八种在类型学特征、资源可用性及语法性别系统上各不相同的语言：

**语言种类。** 语言集合包括：
- 无语法性别语言：英语、中文、日语、韩语；
- 有语法性别语言：西班牙语、俄语、阿拉伯语；
- 低资源语言：斯瓦希里语。

此选择使得在不同语法结构和资源条件下进行比较成为可能，同时保持了可控的实验范围。

**文化与社会属性。** 针对每种语言，我们通过改变叙事语境中常见的社会属性集来生成故事：
- 国籍 (\(N=27\))：涵盖六大洲（如尼日利亚人、伊朗人、巴西人）；
- 宗教 (\(N=6\))，社会阶层 (\(N=2\))，父母角色 (\(N=3\))，儿童性别 (\(N=3\))。

所有这些变量的组合都被实例化，形成了一个支持细粒度分析的结构性配置空间。所有国家及其区域分组列表详见表1 (https://arxiv.org/html/2604.17008#A1.T1)（附录A (https://arxiv.org/html/2604.17008#A1)）。

### 3.3 模型与生成流程

我们使用三个不同规模和训练配置的开源权重LLM生成故事：Qwen-3-8B (Team,2025 (https://arxiv.org/html/2604.17008#bib.bib25))，Llama-3.1-8B，以及Llama-3.2-1B (Grattafiori et al.,2024 (https://arxiv.org/html/2604.17008#bib.bib8))。对于每种模型，我们对所有语言中的每个唯一提示配置采样五次独立生成，共计产生2,916个独特提示和约35万篇故事。
所有生成均使用vLLM推理框架完成。为鼓励叙事多样性，我们采用了相对较高的采样温度。详细的生成超参数和硬件设置见附录B (https://arxiv.org/html/2604.17008#A2)。
生成完成后，我们应用自动语言识别过滤器来验证每篇故事是否用预期的目标语言撰写。未通过一致性检查的故事将被排除在后续叙事特征提取和偏见分析之外。详细的语言一致性统计见附录C (https://arxiv.org/html/2604.17008#A3)。

### 3.4 数据集获取

我们公开了完整的BIASEDTALES-ML数据集，以支持未来的多语言叙事生成与评估研究。此外，我们提供了Biased Tales Explorer，一个交互式可视化界面，便于定性检查和探索性分析（附录E (https://arxiv.org/html/2604.17008#A5)）。

## 4 评估框架

为了支持对长篇故事生成中社会属性的系统分析，我们定义了一个结合叙事特征提取与基于分布指标的评估框架。该框架旨在支持跨语言、跨模型及条件变量的受控比较。

参见图2说明：跨叙事维度的偏见指纹。雷达图展示了多个叙事维度的对数概率比（SCS\_C），其中向外凸起的尖峰（正值）表示相对的男性关联，向内 s

BIASEDTALES-ML：用于分析大语言模型生成故事中叙事属性分布的多语言数据集

相似文章

大型语言模型总是讲相同的故事吗？

当英语改写本地知识：大语言模型中的全球叙事主导

将LLM性别偏见锚定于人类基线：一项跨语言审计

隔离LLM词汇偏见：一种无需人工筛选的三角测量偏好阶段学习指标

MM-JudgeBias：评测 MLLM-as-a-Judge 组合偏差的基准

提交意见反馈