Web规模LLM预训练数据中叙事内容的特征刻画

Hugging Face Daily Papers 2026/06/17 00:00 论文

摘要

对Web规模LLM预训练数据中叙事特征的细粒度研究，引入了NarraBERT和NarraDolma来测量叙事模式及其在不同来源中的分布。

Web规模LLM预训练语料库的叙事构成在很大程度上仍未得到探索，尽管叙事是人类交流的基本模式。我们首次对Dolma（一个包含3万亿token的开放预训练语料库）中的叙事特征进行了细粒度研究。借鉴叙事理论，我们设计了一个涵盖三个核心叙事要素（动因、场景和事件）的框架，并将其操作化为11个可解释维度。在采样并标注了400个多样化的段落之后，我们微调并验证了NarraBERT——一个基于RoBERTa的细粒度叙事预测模型。我们将NarraBERT应用于300万个段落，生成了新数据集NarraDolma。我们发现：(i) 在高度异构的数据中，叙事结构在大规模上是可以测量的；(ii) 我们揭示了web文本背后存在一个连续的多维叙事结构；(iii) 叙事质量在预训练来源和主题间分布不均，而当前的筛选实践既未测量也未考虑这一点。我们的框架、数据集和分析为理解叙事质量在LLM预训练数据中的分布以及研究数据组成如何影响叙事推理任务奠定了基础。我们公开发布了NarraDolma和NarraBERT。

查看原文

查看缓存全文

缓存时间: 2026/06/22 21:33

Paper page - Characterizing Narrative Content in Web-scale LLM Pretraining Data

来源：https://huggingface.co/papers/2606.19468

摘要

对大规模语言模型训练数据中叙事结构的全面分析揭示了可度量的、多维度的叙事模式，这些模式在不同内容来源和主题间存在差异。

尽管叙事是人类交流的基本方式，但网络规模的大语言模型预训练语料库的叙事构成在很大程度上仍未得到探索。我们首次对 Dolma（https://huggingface.co/papers?q=Dolma）这一包含 3 万亿令牌的开放预训练语料库（https://huggingface.co/papers?q=pretraining%20corpus）中的叙事特征进行了细粒度研究。借鉴叙事理论（https://huggingface.co/papers?q=narrative%20theory），我们设计了一个涵盖三个核心叙事要素（能动性（https://huggingface.co/papers?q=agency）、背景设定（https://huggingface.co/papers?q=setting）和事件（https://huggingface.co/papers?q=events））的框架，并将其操作化为 11 个可解释的维度。在对 400 个多样化的段落进行采样和标注后，我们微调并验证了 NarraBERT（https://huggingface.co/papers?q=NarraBERT），这是一个基于 RoBERTa（https://huggingface.co/papers?q=RoBERTa）的模型，用于细粒度叙事预测。我们将 NarraBERT（https://huggingface.co/papers?q=NarraBERT）应用于 300 万个段落，生成了一个新数据集 NarraDolma（https://huggingface.co/papers?q=NarraDolma）。我们发现：（i）叙事结构在高度异构的数据中可以在大规模上被度量；（ii）我们揭示了网络文本背后连续的、多维的叙事结构；（iii）叙事质量在预训练来源和主题之间的分布不均，而当前的策展实践既未测量也未考虑这一点。我们的框架、数据集和分析为理解 LLM 预训练数据中叙事质量的分布以及研究数据组成如何影响叙事推理任务提供了基础。我们公开发布了 NarraDolma（https://huggingface.co/papers?q=NarraDolma）和 NarraBERT（https://huggingface.co/papers?q=NarraBERT）。

查看 arXiv 页面（https://arxiv.org/abs/2606.19468）
查看 PDF（https://arxiv.org/pdf/2606.19468）
项目页面（https://huggingface.co/collections/teagrjohnson/narratives-in-llm-pretraining-data）
GitHub（https://github.com/johnsont4/narratives_in_pretraining_data_release）
添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.19468）

引用此论文的模型 2

teagrjohnson/narrative-event-relation-roberta 文本分类 • 3 天前更新 • 77 • 2（https://huggingface.co/teagrjohnson/narrative-event-relation-roberta）

teagrjohnson/narrative-likert-roberta 文本分类 • 3 天前更新 • 94 • 1（https://huggingface.co/teagrjohnson/narrative-likert-roberta）

引用此论文的数据集 3

teagrjohnson/narrative-llm-annotations 3 天前更新 • 32 • 1（https://huggingface.co/datasets/teagrjohnson/narrative-llm-annotations）

teagrjohnson/narrative-gold-annotations 3 天前更新 • 26 • 1（https://huggingface.co/datasets/teagrjohnson/narrative-gold-annotations）

teagrjohnson/narradolma 3 天前更新 • 24 • 1（https://huggingface.co/datasets/teagrjohnson/narradolma）

引用此论文的 Spaces 1

包含此论文的集合 1

相似文章

BIASEDTALES-ML：用于分析大语言模型生成故事中叙事属性分布的多语言数据集

arXiv cs.CL

# BIASEDTALES-ML：用于分析大语言模型生成故事中叙事属性分布的多语言数据集来源：[https://arxiv.org/html/2604.17008](https://arxiv.org/html/2604.17008) Yuxuan Ouyang1,Yingfeng Luo1,Tong Xiao1,2,Jingbo Zhu1,2 1中国沈阳东北大学计算机科学与工程学院 2中国沈阳 NiuTrans Research [email protected] {xiaotong,zhujingbo}@mail.neu.edu.cn ###### 摘要大型语言模型（LLM）正日益被广泛用