Web规模LLM预训练数据中叙事内容的特征刻画

Hugging Face Daily Papers 论文

摘要

对Web规模LLM预训练数据中叙事特征的细粒度研究,引入了NarraBERT和NarraDolma来测量叙事模式及其在不同来源中的分布。

Web规模LLM预训练语料库的叙事构成在很大程度上仍未得到探索,尽管叙事是人类交流的基本模式。我们首次对Dolma(一个包含3万亿token的开放预训练语料库)中的叙事特征进行了细粒度研究。借鉴叙事理论,我们设计了一个涵盖三个核心叙事要素(动因、场景和事件)的框架,并将其操作化为11个可解释维度。在采样并标注了400个多样化的段落之后,我们微调并验证了NarraBERT——一个基于RoBERTa的细粒度叙事预测模型。我们将NarraBERT应用于300万个段落,生成了新数据集NarraDolma。我们发现:(i) 在高度异构的数据中,叙事结构在大规模上是可以测量的;(ii) 我们揭示了web文本背后存在一个连续的多维叙事结构;(iii) 叙事质量在预训练来源和主题间分布不均,而当前的筛选实践既未测量也未考虑这一点。我们的框架、数据集和分析为理解叙事质量在LLM预训练数据中的分布以及研究数据组成如何影响叙事推理任务奠定了基础。我们公开发布了NarraDolma和NarraBERT。
查看原文
查看缓存全文

缓存时间: 2026/06/22 21:33

Paper page - Characterizing Narrative Content in Web-scale LLM Pretraining Data

来源:https://huggingface.co/papers/2606.19468

摘要

对大规模语言模型训练数据中叙事结构的全面分析揭示了可度量的、多维度的叙事模式,这些模式在不同内容来源和主题间存在差异。

尽管叙事是人类交流的基本方式,但网络规模的大语言模型预训练语料库的叙事构成在很大程度上仍未得到探索。我们首次对 Dolma(https://huggingface.co/papers?q=Dolma)这一包含 3 万亿令牌的开放预训练语料库(https://huggingface.co/papers?q=pretraining%20corpus)中的叙事特征进行了细粒度研究。借鉴叙事理论(https://huggingface.co/papers?q=narrative%20theory),我们设计了一个涵盖三个核心叙事要素(能动性(https://huggingface.co/papers?q=agency)、背景设定(https://huggingface.co/papers?q=setting)和事件(https://huggingface.co/papers?q=events))的框架,并将其操作化为 11 个可解释的维度。在对 400 个多样化的段落进行采样和标注后,我们微调并验证了 NarraBERT(https://huggingface.co/papers?q=NarraBERT),这是一个基于 RoBERTa(https://huggingface.co/papers?q=RoBERTa)的模型,用于细粒度叙事预测。我们将 NarraBERT(https://huggingface.co/papers?q=NarraBERT)应用于 300 万个段落,生成了一个新数据集 NarraDolma(https://huggingface.co/papers?q=NarraDolma)。我们发现:(i)叙事结构在高度异构的数据中可以在大规模上被度量;(ii)我们揭示了网络文本背后连续的、多维的叙事结构;(iii)叙事质量在预训练来源和主题之间的分布不均,而当前的策展实践既未测量也未考虑这一点。我们的框架、数据集和分析为理解 LLM 预训练数据中叙事质量的分布以及研究数据组成如何影响叙事推理任务提供了基础。我们公开发布了 NarraDolma(https://huggingface.co/papers?q=NarraDolma)和 NarraBERT(https://huggingface.co/papers?q=NarraBERT)。

查看 arXiv 页面(https://arxiv.org/abs/2606.19468)
查看 PDF(https://arxiv.org/pdf/2606.19468)
项目页面(https://huggingface.co/collections/teagrjohnson/narratives-in-llm-pretraining-data)
GitHub(https://github.com/johnsont4/narratives_in_pretraining_data_release)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.19468)

引用此论文的模型 2

teagrjohnson/narrative-event-relation-roberta 文本分类 • 3 天前更新 • 77 • 2(https://huggingface.co/teagrjohnson/narrative-event-relation-roberta)

teagrjohnson/narrative-likert-roberta 文本分类 • 3 天前更新 • 94 • 1(https://huggingface.co/teagrjohnson/narrative-likert-roberta)

引用此论文的数据集 3

teagrjohnson/narrative-llm-annotations 3 天前更新 • 32 • 1(https://huggingface.co/datasets/teagrjohnson/narrative-llm-annotations)

teagrjohnson/narrative-gold-annotations 3 天前更新 • 26 • 1(https://huggingface.co/datasets/teagrjohnson/narrative-gold-annotations)

teagrjohnson/narradolma 3 天前更新 • 24 • 1(https://huggingface.co/datasets/teagrjohnson/narradolma)

引用此论文的 Spaces 1

包含此论文的集合 1

相似文章

BIASEDTALES-ML:用于分析大语言模型生成故事中叙事属性分布的多语言数据集

arXiv cs.CL

# BIASEDTALES-ML:用于分析大语言模型生成故事中叙事属性分布的多语言数据集 来源:[https://arxiv.org/html/2604.17008](https://arxiv.org/html/2604.17008) Yuxuan Ouyang1,Yingfeng Luo1,Tong Xiao1,2,Jingbo Zhu1,2 1中国沈阳东北大学计算机科学与工程学院 2中国沈阳 NiuTrans Research [email protected] {xiaotong,zhujingbo}@mail.neu.edu.cn ###### 摘要 大型语言模型(LLM)正日益被广泛用

使用大语言模型自动标注汉语叙事转录文本

arXiv cs.CL

本文评估了使用大语言模型自动标注汉语口语叙事宏观结构的效果,发现最佳模型在降低65%标注时间的同时,达到了接近人类水平的可靠性,但在语义复杂或词汇多样的叙事文本上性能有所下降。

大型语言模型总是讲相同的故事吗?

arXiv cs.CL

本文研究大型语言模型是否能够生成多样化的故事。通过叙事相似性分析,作者发现,LLM生成的叙事彼此之间的相似度始终高于人类撰写的故事,而常见的缓解策略(如负面提示和温度缩放)未能解决这种同质化问题。