德语政治文本的意识形态预测
摘要
该论文提出了一种基于Transformer的模型,用于在连续的左-右光谱上预测德语政治文本的政治意识形态。研究比较了13个模型,发现DeBERTa-large和Gemma2-2B在不同任务上表现最佳。
arXiv:2605.14352v1 通告类型:new
摘要:选举是一个国家持续发展过程中的关键里程碑。为了更好地理解从左到右各派别的政治言论,我们提出了一种基于Transformer的模型,能够将文本的政治倾向映射到连续的左-右光谱上,该光谱由归一化标量d表示,范围在-1到1之间。该方法使分析人员能够聚焦于政治格局中的特定部分,例如保守派,同时排除自由派和极右翼运动。这样的任务只能通过多类分类器实现,前提是目标倾向被包含在其中一个预定义类别中。为了从13个候选Transformer中确定最适合该任务的基础模型,我们构建了四个不同的语料库。一个语料库包含来自德国联邦议院(Bundestag)的带注释的全体会议记录,另一个基于官方在线决策工具Wahl-O-Mat。第三个语料库由33家报纸的文章组成,每篇文章都标有其政治倾向,第四个语料库包含来自第20届和第21届德国联邦议院597名议员的535,200条推文。为减轻过拟合,我们分别使用两个不同的语料库进行训练和两个进行测试。在域内性能上,DeBERTa-large取得了最高的F1分数(F1=0.844),同时在X(Twitter)域外测试中ACC=0.864。在报纸域外测试中,Gemma2-2B表现优异(MAE=0.172)。本研究表明,Transformer模型能够以与民意调查相媲美的水平识别德国新闻中的政治框架。我们的发现表明,模型架构和领域特定训练数据的可用性在估计政治偏见上可能与模型大小同样重要。我们讨论了方法论上的局限性,并概述了提高偏见测量稳健性的方向。
查看缓存全文
缓存时间: 2026/05/15 06:21
# 德国政治文本的意识形态预测 来源:https://arxiv.org/html/2605.14352 ###### 摘要 选举是一个国家持续发展的关键里程碑。为了更好地理解从极左到极右的各种运动所使用的政治修辞,我们提出了一种基于Transformer的模型,能够将文本的政治倾向投射到一个连续的左-右光谱上,用一个归一化标量 \(d \in [-1, 1]\) 来表示。这种方法使得分析人员可以聚焦于政治光谱中的特定部分(例如保守派),同时排除自由派和极右运动。这个任务只能通过多类分类器来实现,前提是目标倾向被包含在其预定义的某个类别中。为了从13个候选Transformer中确定最适合此任务的基础模型,我们构建了四个不同的语料库。一个语料库包含经过标注的德国联邦议院全体会议记录,另一个基于官方在线决策工具Wahl-O-Mat。第三个语料库包含来自33家报纸的文章,每篇文章都标有其政治倾向,第四个语料库包含来自第20届和第21届德国联邦议院597名议员的535,200条推文。为了减轻过拟合,我们分别使用两个不同的语料库进行训练和测试。在领域内性能上,DeBERTa-large取得了最高的F1分数(\(F_1 = 0.844\)),在X(Twitter)的领域外测试中准确率也最高(\(ACC = 0.864\))。在报纸领域外测试中,Gemma2-2B表现最佳(\(MAE = 0.172\))。本研究表明,Transformer模型能够以民意调查的水平识别德语新闻中的政治框架。我们的发现表明,对于评估政治偏见,模型架构和领域特定训练数据的可用性可能与模型规模同样重要。我们讨论了方法上的局限性,并概述了提高偏见测量稳健性的方向。代码——https://github.com/SinclairSchneider/german_ideology_prediction Bundestag/Wahl-O-Mat数据集——https://doi.org/10.57967/hf/4924 德国媒体数据集——https://huggingface.co/collections/SinclairSchneider/german-media-67dcb6c0bf4c007db3999153 ## 引言 2023年2月,调查记者网络“Forbidden Stories”揭露了一个名为“Team Jorge”的虚假信息即服务提供商,该机构与社交媒体机器人账户合作(Andrzejewski 2023 (https://arxiv.org/html/2605.14352#bib.bib71))。该实体声称操纵了33场选举,其中27场被认为成功。为了展示其能力,Team Jorge散布关于一只已故鸸鹋的虚假谣言(#RIP_Emmanuel),最终给该动物的农场带来了实际问题。尽管这是一个特别负面的例子,但它凸显了社交媒体对政治的巨大影响。我们相信,社交媒体分析的强大工具可以在帮助政党更好地理解选民的需求和偏好,以及预测政治话语的轨迹方面发挥重要作用。为了实现这一目标,政治意识形态光谱可以被量化为从-1(左)到1(右)的连续尺度。假设找到了这样的映射,就可以从X上的推文近似估计个人的政治意识形态。范围 \(-1 \leq \theta \leq -0.9\) 将产生左翼话题,例如建立统一的公共医疗体系、美国从德国撤军、关注社会正义和气候保护、以及停止武器出口。更中间派的立场可以在 \(-0.1 \leq \theta \leq 0.1\) 范围内找到,包括反对极端主义的原则、打击仇恨言论和虚假信息的努力、民主价值观、军事现代化和数字战略。因此,阈值 \(0.9 \leq \theta \leq 1\) 可能揭示右翼话题,例如停止向乌克兰提供武器、声称投票给绿党会导致经济破坏、将气候变化视为商业模式、以及将移民和伊斯兰视为对西方国家的威胁。为此,可以实施诸如BERTopic之类的主题建模算法(Grootendorst 2022 (https://arxiv.org/html/2605.14352#bib.bib61))。然而,这些方法缺少一个关键组成部分:动态聚焦于特定政治方向的能力,这只能通过具有预定义类别的分类器来部分解决。因此,本文引入了一种新算法,将政治文本映射到从-1到1的连续尺度上,其中0代表自由主义倾向。本文解决了三个重要挑战:首先,旨在将文本映射到连续的左-右光谱,而不是简单地将其分类为离散类别。其次,旨在通过半监督标注方法使生成的算法适应局部政治偏见。第三,通过在不同的、领域外的数据集上进行测试,确保算法的有效性。 #### 方法 训练一个分类器将文本映射到连续的左-右光谱的基础是将二维归一化向量与政党关联。一个完全的左翼政党将由一个指向左侧的向量 \((-1, 0)\) 表示,而一个右翼政党将有一个指向右侧的向量 \((1, 0)\)。一个中间派政党将由一个指向中心的上方向量 \((0, 1)\) 表示。中间位置由单位长度的向量以相应角度编码。训练好的多标签分类器的输出(表示一个政党对给定陈述的同意程度)然后乘以相应的向量。最后,将所有向量相加,新形成向量的角度代表分类结果。为了证明该方法是有效的,我们最终在爬取的德国报纸和已知政治倾向的政治家推文上进行了测试。这既展示了分类器的准确性,也展示了其领域外能力。为此,我们训练并测试了13个Transformer分类器。 #### 贡献 本文的主要贡献是将先前使用分类变量的方法扩展到-1到1之间的连续左-右光谱,并展示了我们分类器的领域外能力。在针对33家报纸进行测试时,我们最好的分类器在-1到1的尺度上产生了0.17的平均误差(ME),这在基于调查的基准数据集上的误差为8.58%。关于来源预测推文,我们发现当可用字数超过100词时,准确率提高到0.864。通过使用德国联邦议院的全体会议演讲作为训练集之一,我们确保分类器与德国左-右光谱完美对齐,而不引入作者的偏见。通过总共四个自行收集的数据集,我们还确保了领域外的准确性。通过将政治立场预测任务适应德国语境,我们为更多样化的训练数据和模型做出了贡献,因为这不仅需要语言上的适应,还需要考虑独特的政治环境。 ## 相关工作 政治意识形态检测通常通过构建左、中、右等类别,采用手动标注方法进行(Baly et al. 2020 (https://arxiv.org/html/2605.14352#bib.bib31))。不同的研究项目以不同方式处理这种有限政治尺度的问题。有些项目仅关注检测(极)左翼或右翼观点(Kiesel et al. 2019 (https://arxiv.org/html/2605.14352#bib.bib32); Jakob et al. 2024 (https://arxiv.org/html/2605.14352#bib.bib24)),而其他项目则提供更宽的光谱(AllSides 2025 (https://arxiv.org/html/2605.14352#bib.bib29))。这些更宽泛的方法包括位于中心与两个极端之间的“偏左”和“偏右”分类。其他方法则提供七类或更多类的更细粒度分类(Preoţiuc-Pietro et al. 2017 (https://arxiv.org/html/2605.14352#bib.bib38); Fagni and Cresci 2022 (https://arxiv.org/html/2605.14352#bib.bib21)),例如非常保守、保守、中度保守。大多数基础研究是用英语进行的,这往往导致与美国的关联。然而,鉴于各国政治观点多样,简单翻译现有的英语数据集不足以应用于德国政治。因此,研究人员开始收集和标注特定的德语数据集,利用德国报纸的信息(Aksenov et al. 2021 (https://arxiv.org/html/2605.14352#bib.bib23))。社交媒体平台的全球性跨越了国界和文化,使得开发基于推文训练的通用模型变得困难。例如,在精心挑选的数据集上准确率超过90%的方法,当应用于同一网络中的不同用户时,准确率可能下降到约65%(Cohen and Ruths 2013 (https://arxiv.org/html/2605.14352#bib.bib22))。尽管如此,社交媒体仍然是基于Transformer的分类方法的焦点,特别是针对社交媒体的模型,如BERTweet(Nguyen et al. 2020 (https://arxiv.org/html/2605.14352#bib.bib33))和PoliBERTweet(Kawintiranon and Singh 2022 (https://arxiv.org/html/2605.14352#bib.bib34))。在意识形态分类中超越纯文本方法并纳入用户网络,为利用Transformer的分类方法开辟了新的机会,如先前研究所证明的(Jiang et al. 2023 (https://arxiv.org/html/2605.14352#bib.bib26))。探索分析德国联邦议院演讲的出版物,我们找到了Erhard等人(2025 (https://arxiv.org/html/2605.14352#bib.bib25))的工作,他们利用这些演讲研究了民粹主义的崛起。他们确定了四个主要类别:反精英主义、人民中心主义、左翼意识形态和右翼意识形态。该框架通过纳入反精英主义和人民中心主义增强了传统的二维政治光谱,但仍然依赖于手工标注的离散类别。Baly等人(2019 (https://arxiv.org/html/2605.14352#bib.bib37))采用了类似的方法,引入可信度作为第二个维度,采用三点量表。他们的工作表明,政治倾向可以作为检测虚假信息、偏见和宣传的有用因素。在意识形态分类中,针对特定领域(如新闻网站)训练的模型在其他领域(如社交媒体)表现不佳的问题,已由Volf和Simko(2025 (https://arxiv.org/html/2605.14352#bib.bib39))指出。他们通过混合来自多个领域的数据集进行训练来解决这一挑战。改进分类器输出的另一种方法是构建一个数据集,其中包含同一故事由不同政治偏见的新闻媒体讲述的版本,从而提供同一故事在不同政治视角下的直接比较(Liu et al. 2022 (https://arxiv.org/html/2605.14352#bib.bib36))。到目前为止讨论的所有方法都因其分类输出而受到限制。具体来说,序数尺度无法衡量左倾或右倾观点存在的程度。由于没有关于具体类别的惯例,模型的使用仅限于预定义的上下文。例如,在美国的左翼观点概念可能与在德国存在显著差异。 ## 方法 处理流程结构如下:首先,从多个来源收集数据并进一步丰富,以获得可泛化的模型。其次,训练一个二元政治分类器及后续的多标签政党分类器,使用多个BERT、Llama和Gemma大语言模型。第三,将多标签输出转换为连续的左-右光谱(-1到1)。最后,使用独立的测试集(每个测试集来自独立的数据集)评估领域内和领域外性能。此外,比较了向量优化前后的结果。 ### 数据集 两个独立来源(Bundestag, Wahlomat)的数据被预处理用于模型训练和测试。尽管人为地丰富和分割了数据(80:20的训练-测试分割),模型仍可能过拟合。这就是为什么使用另外两个数据集(报纸、推文)进行模型评估。对于训练和评估,所有数据集的数据按照下文所述进行预标注或自动标注。 #### Bundestag数据集 德国联邦议院的所有全体辩论均由速记员书面记录并发布(Deutscher Bundestag 2025 (https://arxiv.org/html/2605.14352#bib.bib27))。除了演讲文本外,议员的姓名和党派归属也被记录下来。对于请求(问题、提问者的党派和姓名)以及所有其他可能的演讲打断(如插话、嘘声、掌声等)(类型及对应党派),也同样如此。我们收集并处理了从2017年10月到2024年9月期间的所有议会议事录。原始演讲数据包含34,174次演讲。 ##### 标注 演讲与打断的结合构成了一个稳健的自动标注方法。所有演讲均被筛选,只保留有记录的打断。没有任何打断的演讲被丢弃。对于剩余的演讲,从评论中提取情感。所描述的提取过程如图6 (https://arxiv.org/html/2605.14352#A1.F6)所示。此过程产生了一个包含32,246条标注陈述(即各党派的赞成或反对意见)的数据集。基于提取情感的党派关联如图1 (https://arxiv.org/html/2605.14352#Sx3.F1)(上三角)所示。 ##### 数据丰富 为了使分类器不仅能正确分类政治演讲,也能正确分类一般的政治陈述,人为增加了陈述的语言多样性。为此,使用LLama 3.1模型要求将每个文本总结成五种不同版本:以儿童、青少年、成人、口才流利者的话语,或作为社交媒体帖子(推文)。扩展后的数据集包含449,209条陈述。在与下文描述的Wahlomat数据集合并后,该数据集已公开提供(Schneider 2025b (https://arxiv.org/html/2605.14352#bib.bib30))。 #### Wahlomat数据集 德国的多党制使得选民难以找到最能代表其利益的政党。因此,联邦政治教育中心(Bundeszentrale für politische Bildung)在每次联邦和州选举前发布一个名为Wahl-O-Mat的数字选民指南。它包含若干政治陈述,用户可以选择同意或不同意(参见图5 (https://arxiv.org/html/2605.14352#A1.F5)中2025年联邦选举的一个例子)。为了使该系统发挥作用,各有关政党立场(同意、中立、反对)事先由联邦政治教育中心正式调查。所使用的数据可在网上获取(Bolte 2025 (https://arxiv.org/html/2605.14352#bib.bib28)),包含1998年至2021年间选举的1,751条独特陈述。 ##### 标注 不需要标注,因为数据已经包含所有政党的陈述和态度。态度
相似文章
德国政治文本意识形态预测
本文提出一种基于Transformer的模型,可将德语文本的政治倾向映射到从左到右的连续频谱上,在包含德国联邦议院全体会议记录、Wahl-O-Mat、报纸和推文等多个语料库上实现了高准确率。
政治可塑性:大型语言模型中意识形态适应性的分析
本研究论文分析了大型语言模型中的“政治可塑性”,发现当提供用户示例时,较新的模型展现出可靠的意识形态适应性,而较旧的模型则表现出有限或不稳定的反应。
TextLDM:利用连续潜在扩散进行语言建模
本文介绍了 TextLDM,这是一种通过将离散标记映射到连续潜在空间,从而将视觉潜在扩散Transformer适配于语言建模的方法。研究表明,该方法在表示对齐的增强下,达到了与 GPT-2 相当的性能,并统一了视觉与文本生成的架构。
哪个 AI 最接近你的政治观点?我用同样的 117 个问题测试了 100 多个大语言模型
一项独立分析对 100 多个大语言模型进行了 117 个政治问题的测试,以绘制其意识形态倾向图谱,结果显示 DeepSeek 和 Grok 偏向左翼,而大多数其他模型则聚集在中间或右翼。
更好的语言模型及其影响
OpenAI 推出 GPT-2,这是一个拥有 15 亿参数的基于 Transformer 的语言模型,在 40GB 的互联网文本上进行训练,在语言建模基准上达到了最先进的性能,并在阅读理解、翻译、问答和摘要生成等任务上展示了零样本学习能力。出于安全考虑,仅公开发布了较小的模型和技术论文,而非完整的训练模型。