Web规模LLM预训练数据中叙事内容的特征刻画
摘要
对Web规模LLM预训练数据中叙事特征的细粒度研究,引入了NarraBERT和NarraDolma来测量叙事模式及其在不同来源中的分布。
查看缓存全文
缓存时间: 2026/06/22 21:33
Paper page - Characterizing Narrative Content in Web-scale LLM Pretraining Data
来源:https://huggingface.co/papers/2606.19468
摘要
对大规模语言模型训练数据中叙事结构的全面分析揭示了可度量的、多维度的叙事模式,这些模式在不同内容来源和主题间存在差异。
尽管叙事是人类交流的基本方式,但网络规模的大语言模型预训练语料库的叙事构成在很大程度上仍未得到探索。我们首次对 Dolma(https://huggingface.co/papers?q=Dolma)这一包含 3 万亿令牌的开放预训练语料库(https://huggingface.co/papers?q=pretraining%20corpus)中的叙事特征进行了细粒度研究。借鉴叙事理论(https://huggingface.co/papers?q=narrative%20theory),我们设计了一个涵盖三个核心叙事要素(能动性(https://huggingface.co/papers?q=agency)、背景设定(https://huggingface.co/papers?q=setting)和事件(https://huggingface.co/papers?q=events))的框架,并将其操作化为 11 个可解释的维度。在对 400 个多样化的段落进行采样和标注后,我们微调并验证了 NarraBERT(https://huggingface.co/papers?q=NarraBERT),这是一个基于 RoBERTa(https://huggingface.co/papers?q=RoBERTa)的模型,用于细粒度叙事预测。我们将 NarraBERT(https://huggingface.co/papers?q=NarraBERT)应用于 300 万个段落,生成了一个新数据集 NarraDolma(https://huggingface.co/papers?q=NarraDolma)。我们发现:(i)叙事结构在高度异构的数据中可以在大规模上被度量;(ii)我们揭示了网络文本背后连续的、多维的叙事结构;(iii)叙事质量在预训练来源和主题之间的分布不均,而当前的策展实践既未测量也未考虑这一点。我们的框架、数据集和分析为理解 LLM 预训练数据中叙事质量的分布以及研究数据组成如何影响叙事推理任务提供了基础。我们公开发布了 NarraDolma(https://huggingface.co/papers?q=NarraDolma)和 NarraBERT(https://huggingface.co/papers?q=NarraBERT)。
查看 arXiv 页面(https://arxiv.org/abs/2606.19468)
查看 PDF(https://arxiv.org/pdf/2606.19468)
项目页面(https://huggingface.co/collections/teagrjohnson/narratives-in-llm-pretraining-data)
GitHub(https://github.com/johnsont4/narratives_in_pretraining_data_release)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.19468)
引用此论文的模型 2
teagrjohnson/narrative-event-relation-roberta 文本分类 • 3 天前更新 • 77 • 2(https://huggingface.co/teagrjohnson/narrative-event-relation-roberta)
teagrjohnson/narrative-likert-roberta 文本分类 • 3 天前更新 • 94 • 1(https://huggingface.co/teagrjohnson/narrative-likert-roberta)
引用此论文的数据集 3
teagrjohnson/narrative-llm-annotations 3 天前更新 • 32 • 1(https://huggingface.co/datasets/teagrjohnson/narrative-llm-annotations)
teagrjohnson/narrative-gold-annotations 3 天前更新 • 26 • 1(https://huggingface.co/datasets/teagrjohnson/narrative-gold-annotations)
teagrjohnson/narradolma 3 天前更新 • 24 • 1(https://huggingface.co/datasets/teagrjohnson/narradolma)
引用此论文的 Spaces 1
包含此论文的集合 1
相似文章
BIASEDTALES-ML:用于分析大语言模型生成故事中叙事属性分布的多语言数据集
# BIASEDTALES-ML:用于分析大语言模型生成故事中叙事属性分布的多语言数据集 来源:[https://arxiv.org/html/2604.17008](https://arxiv.org/html/2604.17008) Yuxuan Ouyang1,Yingfeng Luo1,Tong Xiao1,2,Jingbo Zhu1,2 1中国沈阳东北大学计算机科学与工程学院 2中国沈阳 NiuTrans Research [email protected] {xiaotong,zhujingbo}@mail.neu.edu.cn ###### 摘要 大型语言模型(LLM)正日益被广泛用
叙事景观:映射大语言模型中的叙事倾向
本文介绍了一种名为“叙事景观”的定量框架和可视化工具,用于映射并比较前沿大语言模型的叙事倾向及其稳定性。
使用大语言模型自动标注汉语叙事转录文本
本文评估了使用大语言模型自动标注汉语口语叙事宏观结构的效果,发现最佳模型在降低65%标注时间的同时,达到了接近人类水平的可靠性,但在语义复杂或词汇多样的叙事文本上性能有所下降。
NARRA-Gym:用于评估交互式叙事智能体的基准
本文介绍了 NARRA-Gym,这是一个基准和可执行评估环境,用于评估大型语言模型在多轮对话中维持交互式叙事、管理记忆以及适应用户的能力。
大型语言模型总是讲相同的故事吗?
本文研究大型语言模型是否能够生成多样化的故事。通过叙事相似性分析,作者发现,LLM生成的叙事彼此之间的相似度始终高于人类撰写的故事,而常见的缓解策略(如负面提示和温度缩放)未能解决这种同质化问题。