俄罗斯国内外政策演讲的关联多模态数据

arXiv cs.CL 论文

摘要

本文介绍了一个俄罗斯政府官方演讲的关联多模态数据集,包含文本、图像、元数据和主题标注,旨在支持社会科学研究和政治领域的大语言模型应用。

arXiv:2605.15886v1 公告类型:新 摘要:本文介绍了一个俄罗斯政府互相关联的多模态政治传播数据集,解决了威权政治背景下社会文本与图像数据长期匮乏的问题。该数据集包含两个大型语料库,来自克里姆林宫和俄罗斯外交部高级官员数十年的官方演讲。对于每篇演讲,我们提供俄语和英语文本、可用的相关图像及说明文字,以及统一的元数据(例如日期、演讲者、地理位置和官方政府内容标签)。唯一标识符将图像与演讲关联,并对齐同一篇演讲文本的俄语和英语版本。我们还通过基于Transformer的多模态主题建模生成、并由俄罗斯政治专家精炼的已验证主题标注,进一步丰富了这些关联数据集。由此产生的数据资源支持对(威权)政治传播的多模态、多语言、时间及/或空间分析,并为社会科学研究和政治领域的大语言模型应用提供了宝贵的测试平台。
查看原文
查看缓存全文

缓存时间: 2026/05/18 06:34

# 俄罗斯国内外政策演讲的多模态关联数据集 来源:https://arxiv.org/html/2605.15886

Daria Blinova, Gayathri Emuru  
特拉华大学,数据科学硕士项目,纽瓦克,特拉华州,美国  
Rakesh Emuru  
特拉华大学,数据科学硕士项目,纽瓦克,特拉华州,美国  
Kushagradheer Shridheer Srivastava  
特拉华大学,数据科学硕士项目,纽瓦克,特拉华州,美国  
Mina Rulis  
宾夕法尼亚大学,政治学系,费城,宾夕法尼亚州,美国  
Sunita Chandrasekaran  
特拉华大学,计算机与信息科学系,纽瓦克,特拉华州,美国  
Benjamin E. Bagozzi  
特拉华大学,政治学与国际关系系,纽瓦克,特拉华州,美国  
通讯作者:Benjamin E. Bagozzi ([email protected])

###### 摘要

本文介绍了一个由俄罗斯政府多模态政治传播构成的相互关联数据集,旨在解决威权政治背景下社会文本与图像数据可用性长期存在的不足。该数据集包含两大语料库,收录了克里姆林宫及俄罗斯外交部高级官员在数十年间发表的官方演讲。每篇演讲均提供俄语和英语文本、相关图片及标题(如有),以及统一的元数据,包括(例如)日期、演讲者、(地理)位置和官方政府内容标签。唯一标识符将图片与演讲关联起来,并实现同一传播内容的俄语与英语版本之间的对齐。我们还通过基于Transformer的多模态主题建模,并由俄罗斯政治专家完善,为这些关联数据集补充了经过验证的演讲文本与图片主题注释。最终的数据资源支持对(威权)政治传播进行多模态、多语言、时间和/或空间分析,并为社会科学研究及大型语言模型(LLM)在政治领域的应用提供了宝贵的测试平台。

## 背景与概述

过去十年中,社会科学家越来越多地采用文本即数据和(近年来)图像即数据的方法,大规模研究政治、社会与经济现象。自然语言处理(NLP)、计算机视觉和表示学习的进步,使研究人员能够分析此前无法进行系统性实证分析的大量演讲、新闻文章、社交媒体帖子和视觉内容。在政治学中,这一转变重塑了对精英行为、公众舆论和国际关系的研究,《政治分析》、《美国政治科学评论》、《美国政治科学杂志》和《政治科学年度评论》等期刊均出现了有影响力的贡献[25(https://arxiv.org/html/2605.15886#bib.bib1),70(https://arxiv.org/html/2605.15886#bib.bib4),42(https://arxiv.org/html/2605.15886#bib.bib7),6(https://arxiv.org/html/2605.15886#bib.bib3),63(https://arxiv.org/html/2605.15886#bib.bib77),65(https://arxiv.org/html/2605.15886#bib.bib2)]。类似的进展在社会学[61(https://arxiv.org/html/2605.15886#bib.bib46),13(https://arxiv.org/html/2605.15886#bib.bib45)]、传播学[16(https://arxiv.org/html/2605.15886#bib.bib48),8(https://arxiv.org/html/2605.15886#bib.bib47)]、管理与组织研究[34(https://arxiv.org/html/2605.15886#bib.bib44),59(https://arxiv.org/html/2605.15886#bib.bib38)]以及心理学[49(https://arxiv.org/html/2605.15886#bib.bib43),9(https://arxiv.org/html/2605.15886#bib.bib42)]中也很明显,凸显了围绕社会探究计算方法进行学科融合的趋势。与此同时,这些方法已成为计算机科学和数据科学研究本身的核心,基于社会的文本和图像语料库越来越多地被用于评估模型、研究偏见和开发多模态学习技术[37(https://arxiv.org/html/2605.15886#bib.bib40),53(https://arxiv.org/html/2605.15886#bib.bib194),72(https://arxiv.org/html/2605.15886#bib.bib41)]。

尽管取得了这些进展,学者们仍然缺乏全面且系统关联的社会文本与图像数据集。这种差距对于结合了关联多模态内容(即与同一政治传播相关的文本和图像)的数据集,以及包含多语言文本的数据集尤为突出,而这两者已被证明对于理解政治信息传递、框架构建和信号传递至关重要[32(https://arxiv.org/html/2605.15886#bib.bib16),4(https://arxiv.org/html/2605.15886#bib.bib13),50(https://arxiv.org/html/2605.15886#bib.bib14),35(https://arxiv.org/html/2605.15886#bib.bib15)]。这种数据的缺失在威权环境下影响尤为严重,因为常规的定量信息来源——如经济统计数据、公众舆论调查或行政记录——往往不可用,或者被选择性发布、策略性操纵[29(https://arxiv.org/html/2605.15886#bib.bib22),66(https://arxiv.org/html/2605.15886#bib.bib21),58(https://arxiv.org/html/2605.15886#bib.bib11)]。现有的例外情况——例如仅依赖文本或图像的分析,如对威权主义在线媒体或演讲中的修辞分析,或对国家宣传图像的研究——已经证明了巨大的分析价值,揭示了精英信号传递、政策优先顺序和政权合法化策略的模式[15(https://arxiv.org/html/2605.15886#bib.bib19),57(https://arxiv.org/html/2605.15886#bib.bib12),58(https://arxiv.org/html/2605.15886#bib.bib11),41(https://arxiv.org/html/2605.15886#bib.bib39),33(https://arxiv.org/html/2605.15886#bib.bib18),74(https://arxiv.org/html/2605.15886#bib.bib17)]。简而言之,后者的研究表明,更丰富、多模态和多语言的数据可能进一步加深我们对威权政治的理解。

受此潜力的启发,我们收集并整理了一个新颖的相互关联的多模态数据集,结合了来自两个不同俄罗斯政府演讲集合的文本、图像和元数据。我们的总体数据资源包括关联的俄语和英语版本的官方演讲文本、相关演讲图像以及上下文元数据,涵盖1999年12月31日至2025年9月20日期间在克里姆林宫主持下由高级政治人物(最常见的是俄罗斯总统)发表的演讲,以及2004年3月18日至2025年10月7日期间在俄罗斯外交部主持下由高级政治人物(最常见的是俄罗斯联邦外交部长)发表的演讲。在这两个语料库中,数据包含总计15,610篇英语演讲和19,396篇俄语演讲,以及相关的42,782张和49,277张图像,提供了丰富的多模态内容,时间跨度相当长,覆盖了当代俄罗斯国内政治和国际关系的关键时期。总计,我们发布了清洗后的俄语和英语文本、所有相关图像以及这两个演讲集合(克里姆林宫和外交部)的统一元数据。每个数据集都包含将图像与特定演讲关联起来的唯一标识符,以及关联同一演讲俄语和英语版本的标识符。克里姆林宫和俄罗斯外交部自己翻译并提供了我们收集的演讲的这些单独俄语和英语翻译版本。然而,如下文进一步讨论的那样,这些并行的英语和俄语演讲版本不一定完全相同。这确保了我们收集和关联的数据将独特地使未来的学者能够研究官方俄罗斯政府在特定演讲的每种语言版本中包含或省略哪些内容的决策差异,以及这些决策的潜在原因和后果。在可用的情况下,我们为每个演讲语料库提取的元数据还包括每个演讲的日期、俄罗斯政府分配的官方索引标签(例如,主题、地区和演讲者)、演讲标题和摘要、图片标题、指定的演讲地点、演讲者姓名,以及我们自己提取和验证的演讲地理位置——以及帮助研究人员的额外(元)数据。

除了这些文本、图像和元数据属性之外,我们还通过一个人类参与循环的框架,为每个语料库添加了我们自己有实质意义且经我们验证的主题注释,从而丰富了语料库。我们使用基于Transformer的多模态主题建模——特别是BERTopic[26(https://arxiv.org/html/2605.15886#bib.bib96)]——分别为每个(特定语言的)文本语料库及其关联的图像数据估计潜在主题。然后由一位俄罗斯政治主题专家对核心主题进行标注,并将其分组到更高级别的主题类别中。我们通过与官方克里姆林宫提供的主题标签(如果可用)进行广泛比较,以及由政治科学主题专家进行二次定性审查来验证这些主题。与俄罗斯政府对克里姆林宫特定演讲有限部分提供的主题标签相比,我们的主题注释一起提供了透明提取且几乎完整覆盖我们克里姆林宫和外交部语料库中的所有演讲。

总的来说,所得数据为社会科学家、计算机科学家和数据科学家提供了广泛的应用前景。对于社会科学家而言,关联的文本、图像和主题标签能够系统地分析俄罗斯国内和外交政策优先事项随时间和(可能)空间的变化,从而扩展了此前几乎完全依赖来自单一部委或行政行为者的单语言、纯文本语料库的研究\Mölder2023, [12(https://arxiv.org/html/2605.15886#bib.bib79),73(https://arxiv.org/html/2605.15886#bib.bib81)]。因此,这些数据共同使社会科学研究人员能够研究(i)俄罗斯克里姆林宫和外交部之间演讲(文本和/或图像)内容的差异,以及(ii)这些各自政治单位发布的每篇演讲的英语与俄语版本之间的差异的政治起源和/或影响。这些潜在的比较直接涉及关于威权信号传递和受众分化的日益增长的文献,包括在中国的研究,表明政权如何为外国和国内公众量身定制信息[69(https://arxiv.org/html/2605.15886#bib.bib83),68(https://arxiv.org/html/2605.15886#bib.bib84),19(https://arxiv.org/html/2605.15886#bib.bib25),36(https://arxiv.org/html/2605.15886#bib.bib24),40(https://arxiv.org/html/2605.15886#bib.bib23)]。同样,许多数据科学、AI和计算机科学研究人员依赖于大型的带注释文本(和图像)测试平台,用于开发或验证新的机器学习或AI方法。我们由专家标注和验证的主题变量,以及更普遍的关联英语和俄语数据集,为这些任务提供了即用型输入,尤其是当这些任务旨在探索俄语文本和/或多语言或多模态内容的特性时。最后,对于政府官员以及对政治预测感兴趣的研究人员而言,我们数据中的文本、图像和主题信息可用于开发回归分析、时间序列模型或与冲突、外交政策行为和国家稳定性相关的预测和早期预警系统的输入[44(https://arxiv.org/html/2605.15886#bib.bib85),10(https://arxiv.org/html/2605.15886#bib.bib8),18(https://arxiv.org/html/2605.15886#bib.bib86),42(https://arxiv.org/html/2605.15886#bib.bib7)]。

在接下来的部分,我们首先回顾项目范围和文档,然后概述我们的网页抓取、数据清理以及文本、图像和元数据的测量策略。接下来,我们提供数据集结构和数据记录的详细信息。最后,我们讨论验证工作,并以使用说明以及数据和代码可用性的详细信息作为结束。

## 方法

### 项目范围

在本节中,我们描述从克里姆林宫(kremlin.ru)和俄罗斯外交部(mid.ru)官方网站提取的文本和图像语料库。克里姆林宫是俄罗斯总统的官方代表机构,总统是俄罗斯国家的行政首脑。外交部是执行外交政策的联邦行政机构,在俄罗斯总统的管辖下运作。这两个俄罗斯行政分支机构在塑造俄罗斯国家内政和/或外交事务方向方面发挥着互补作用。同时,它们也是重要政治信息的来源,使外部观察者能够评估国家官方修辞的动态。由于克里姆林宫和外交部都运营自己的官方网站,它们分别存档涉及文本和图像的演讲、新闻稿、采访和其他相关内容。尽管这些演讲和图像有时也通过电视等其他媒介传播,但这两个政府网站在长期系统性存档这些数据方面是独一无二的。我们的提取和发布材料侧重于每个项目的文本内容及任何相关的静态图像;我们不提取、存储或分析视频内容。下面,我们首先描述英语和俄语的克里姆林宫语料库(及随附图像)。然后,我们转而描述英语和俄语版本的外交部语料库(及其图像)。

### 0.1 克里姆林宫文本与图像

克里姆林宫的文本和图像语料库是从官方克里姆林宫网站(kremlin.ru)提取的。该网站存档了从1999年12月31日起(根据我们数据收集的目的,截至2025年9月20日)不同场合下所有克里姆林宫演讲的转录文本(及其视觉资料)。克里姆林宫网站以俄语和英语两种语言存储演讲转录文本,以及反映与演讲内容相应的演讲场景的图像。如上文和下文更详细地讨论的那样,我们将这些英语和俄语的演讲文本及其视觉资料提取到单独的数据集中,并为这些提取的文本和图像提供额外的元数据。鉴于克里姆林宫及其官方网站的性质,该网站上的大多数俄语和英语演讲均由俄罗斯总统发表。在我们数据集的日期范围内,俄罗斯只有两位总统:弗拉基米尔·普京(2000-2008年;2012年至今)和德米特里·梅德韦杰夫(2008-2012年)。这些人物构成了与克里姆林宫及其官方网站相关的演讲中记录的大部分演讲者。然而,除了总统演讲之外,克里姆林宫可用的转录文本还包括一小部分来自与这两位总统互动过的国内或国际政治代表的演讲。在这种情况下,这些转录文本通常包含俄罗斯总统与这些领导人作为合作(例如,会议或联合演讲)一部分的演讲内容。如前所述,这些公开演讲的场合各不相同,演讲(及随附图像)本身的格式及其主题焦点也各不相同。这种变化涵盖了从总统与国内或国际领导人之间的采访或官方通信,到全国性公告和国际论坛演讲的转录文本。同时,我们还……

相似文章

用于事实核查的多模态声明提取

arXiv cs.CL

研究人员提出了首个用于从社交媒体中进行多模态声明提取的基准,评估了最先进的多模态大语言模型,并引入了MICE——一个意图感知框架,在处理图文结合帖子中的修辞意图和上下文线索方面有所改进。

BIASEDTALES-ML:用于分析大语言模型生成故事中叙事属性分布的多语言数据集

arXiv cs.CL

# BIASEDTALES-ML:用于分析大语言模型生成故事中叙事属性分布的多语言数据集 来源:[https://arxiv.org/html/2604.17008](https://arxiv.org/html/2604.17008) Yuxuan Ouyang1,Yingfeng Luo1,Tong Xiao1,2,Jingbo Zhu1,2 1中国沈阳东北大学计算机科学与工程学院 2中国沈阳 NiuTrans Research [email protected] {xiaotong,zhujingbo}@mail.neu.edu.cn ###### 摘要 大型语言模型(LLM)正日益被广泛用