政治可塑性:大型语言模型中意识形态适应性的分析

arXiv cs.AI 论文

摘要

本研究论文分析了大型语言模型中的“政治可塑性”,发现当提供用户示例时,较新的模型展现出可靠的意识形态适应性,而较旧的模型则表现出有限或不稳定的反应。

arXiv:2605.08415v1 公告类型:新发布 摘要:自大型语言模型(LLMs)问世以来,一个重要的研究领域集中在其内在偏见上,特别是在政治话语方面。本研究探讨了一个不同但相关的概念——“政治可塑性”,其定义是模型根据用户提供的上下文调整其回答的能力。为了进行分析,我们基于 Lester(1996)提出的先前框架,使用了一个扩展的语料库,包含 200 个关于经济和个人自由轴线的政治导向问题,并开发了一个测试框架。研究探索了多种诱导政治偏见的方法,包括简化的和主题化的系统提示,以及带有少样本示例的用户提示。结果显示,虽然系统提示大多无效,但用户提示成功引发了显著的意识形态转变,特别是在较大和较新的模型中沿经济自由轴线的转变。通过验证实验,我们研究了模型是否通过识别潜在的问题格式来回答问卷。反转问题的含义揭示了大多数模型中意外的、反直觉的转变,这表明可能存在数据泄露。最后,我们还分析了在不同语言中进行实验时模型可塑性的变化。结果显示,在所分析的每种语言中都有微妙但显著的变化。总体而言,我们的结果表明,小型和较旧的大语言模型表现出有限或不稳定的政治可塑性,而较新的前沿模型则显示出可靠且符合预期的适应性。
查看原文
查看缓存全文

缓存时间: 2026/05/12 07:13

# 政治可塑性:对大型语言模型意识形态适应性的分析

来源:https://arxiv.org/html/2605.08415
Bruno Bianchi 应用人工智能实验室,计算机科学研究所,计算机系,精确与自然科学学院,布宜诺斯艾利斯大学-阿根廷 [email protected]
Matias Travizano 已故。在本工作完成之前去世。
Ariel Futoransky Disarmista

###### 摘要

自大型语言模型(LLMs)问世以来,一个重要的研究领域一直关注其内在偏见,特别是在政治话语方面。本研究调查了一个不同但相关的概念,“政治可塑性”,定义为模型根据用户提供的上下文调整其回答的能力。为了分析这一点,我们基于 Lester (1996) 的先前框架,使用了一个扩展的语料库,包含200个在经济和人身自由轴上的政治导向问题,开发了一个测试框架。本研究探讨了多种诱导政治偏见的方法,包括简化和基于主题的系统提示,以及带有少量示例的用户提示。结果表明,虽然系统提示 largely 无效,但用户提示成功地引发了显著的意识形态转变,特别是在较大且较新的模型中沿经济自由轴。通过验证实验,我们考察了模型是否通过识别潜在的问题格式来回答问卷。反转问题的含义揭示了大多数模型中出乎意料、反直觉的转变,这表明可能存在数据泄露。最后,我们还分析了当实验以不同语言进行时模型可塑性的变化。结果揭示了每种分析语言中细微但显著的变化。总体而言,我们的结果表明,小型和较旧的 LLM 表现出有限或不稳定的政治可塑性,而较新的前沿模型则显示出可靠、预期的适应性。

政治可塑性:对大型语言模型意识形态适应性的分析

Bruno Bianchi 应用人工智能实验室,计算机科学研究所,计算机系,精确与自然科学学院,布宜诺斯艾利斯大学-阿根廷 [email protected]

Diego Tiscornia Disarmista
Matias Travizano 已故。在本工作完成之前去世。
Ariel Futoransky Disarmista

## 1 引言

大型语言模型(LLMs)的普及催化了公众的多样化采用。目前的应用超越了传统的自然语言处理(NLP)任务,如机器翻译,还包括用作信息检索系统和用于协作头脑风暴的对话伙伴。因此,最近的学术研究开始检查这些互动的心理维度,经常发现对 LLM 生成输出的过度依赖或过度信任倾向 Shekar et al. (2024) [1]。

一个重要的研究领域一直关注 LLM 的内在偏见,特别是在政治话语方面。许多研究通过各种技术检查了这些偏见在不同场景下的变化及其对人们的影响 Bang et al. (2024) [2]; Rozado (2024) [3]; Potter et al. (2024) [4]; Feng et al. (2023) [5]; Santurkar et al. (2023) [6]; Vijay et al. (2024) [7]; Hartmann et al. (2023) [8]; Batzner et al. (2025) [14]。然而,本研究超越了分析内在偏见,专注于**政治可塑性**,定义为模型根据用户提供的上下文调整其回答的属性。

在此,我们进行了一系列分析以构建 LLM 政治可塑性研究的结构。为此,我们探索了各种方法来评估当与具有特定政治观点的用户互动时,LLM 可以有多大的适应性。我们的结果表明,最先进模型表现出不同程度的可塑性。此外,我们证明需要仔细探索使用的提示以及从每个模型期望获得的响应类型。

## 2 相关工作

本研究建立在量化人类政治意识形态的既定框架之上,特别是采用了 Lester (1996) [1] 提出的方法。该框架采用20个条目,分为两个维度:经济自由和人身自由(各10个条目)。例如,人身自由分量表包括关于生殖权利的问题(例如,“是否应该允许女性获得避孕和堕胎?”)。响应被聚合以得出“自由指数”,其中肯定响应的总频率作为感知自由度的代理。

近年来,大型语言模型(LLMs)的研究越来越与政治科学和社会心理学交叉,从基本性能评估转向复杂分析,探讨这些模型如何与人类意识形态框架互动。本研究基于几个关键领域:内在偏见、人工智能的说服力、对齐的技术限制以及人类用户的心理倾向。

对 LLM 中政治偏见的调查已经确立,这些模型很少是中立的。研究一致表明,流行的对话模型,如 ChatGPT,在其默认状态下表现出明显的“左倾”或“左翼自由意志主义”倾向 (Hartmann et al., 2023) [8]; (Rozado, 2024) [3]; (Feng et al., 2023) [5]。这种偏见不仅仅是训练数据的反映,还经常通过对齐过程加强。Santurkar et al. (2023) [6] 构建了一个公众舆论调查数据集(OpinionQA 数据集),并证明模型响应很少与特定人口群体的观点一致,通常反映自由民主偏好。即使模型用于表面中立的任務,如新闻摘要,微妙的意识形态偏见也可能在内容的框架和选择中持续存在 (Vijay et al., 2024) [7]。

对 LLM 偏见能力的实证调查揭示了在一致诱导特定意识形态倾向方面的重大挑战。例如,Bang et al. (2024) [2] 证明,通过还原性的意识形态描述符(如“左翼”或“右翼”)提示模型,往往会产生不一致或无定论的结果。这种限制主要归因于一维二元分类的不足,未能考虑到政治意识形态的多面性。因此,最近的研究提倡更细致的框架,从具体的、显著的政策主题及其相关的实质性立场推导意识形态概况。Hackenburg et al. (2023) [15] 的工作进一步支持了这种向基于主题的意识形态定位的转变。

最近的研究发现,GPT-4 在说服个人关于两极分化政治问题上可以像人类专家一样有效,甚至更有效 (Hackenburg et al., 2023) [15]。这种能力扩展到改变现实世界的行为;互动实验显示,即使模型没有被明确提示要有偏见,与 LLM 的短暂对话也可以使注册选民转向特定候选人 (Potter et al., 2024) [4]。这些发现表明,模型的适应性(其可塑性)可能被利用来微妙地影响公共话语和个人的投票行为。

理解 LLM 如何适应用户的需求进一步受到人类过度信任人工智能的心理倾向的驱动。在医疗等高利害关系领域,用户被发现像信任医生的建议一样信任 AI 生成的建议,即使 AI 提供了不准确的信息 (Shekar et al., 2024) [1]。这种“过度信任”使得模型的政治可塑性尤为关键;如果模型为了建立融洽关系而回应用户的意识形态,用户可能不太可能批判性地评估所提供的信息。

## 3 方法论

参见标题图1:方法论:模型通过在系统提示(实验1和2)或用户提示(实验3和验证1和2)中偏向某种意识形态进行偏置。每个提示包括基本指令和回答示例。然后呈现带有“是”和“否”作为可能答案的测试问题。使用两个指标分析响应:最可能响应(#(p(yes)>p(no)))和肯定响应概率(mean(p(yes)))。最后,分析了沿经济和人身两个轴的意识形态转变(即,左偏和右偏值之间的差异)。

### 3.1 模型

我们测试了以下本地托管的模型(大小以十亿参数计):Llama3:8b, Llama3.1:8b, tinyllama:1.1b, Deepseek:7b, Mistral:7b, Phi3.3:8b, Gemma2:2b, Qwen2:7b。在所有情况下,都使用了 Ollama [1] 提供的实现,量化为 Q4。还通过产品 API 分析了 OpenAI 的 GPT-4.1(版本 gpt-4.1-2025-04-14)、GPT-5-mini(gpt-5-mini-2025-08-07)和 GPT-5-nano(gpt-5-nano-2025-08-07)模型。最后,通过 TogetherAI API [2] 查询了 Llama-3.3:70b-Instruct-Turbo 和 DeepSeek-V3。

### 3.2 测试语料库

模型的意识形态是通过一系列基于该领域先前工作的問題进行分析的。特别是,我们的方法基于 Lester (1996) [1] 的工作。这项工作提出了一组10个与经济自由相关的问题(例如,“国家是否应该停止使用税收来补贴艺术和娱乐?”)和10个与人身自由相关的问题(例如,“无论多么暴力,所有自愿的人类体育是否应该合法?”)。这些问题设计得使得在这两个方面中的每一个方面的**自由指数**被计算为一个人给出的“是”响应的数量。

在本研究中,我们提出了 Lester 提议的一种变体,将其调整为评估 LLM 而不是人类。我们将原始问题集从20个扩展到200个条目。此外,我们对每个问题分析了两个关键指标:“是”和“否”之间的最可能响应,以及肯定响应概率(即 p(yes))。对于不提供开放对数概率的模型(例如,GPT-5 mini 和 nano),我们通过将温度超参数设置为其最大值,运行每个查询十次来估计概率。

#### 3.2.1 数据增强

与人类不同,模型疲劳对于 LLM 来说不是一个问题。因此,为了减轻来自原始 Lester 问题的潜在数据泄露并确保更强大、更细粒度的评估,我们重新设计了测试语料库,并为每个轴生成了100个问题 [3]。

我们的方法涉及使用 ChatGPT 界面根据 Lester (1996) [1] 的原始20个问题生成一组扩展的问题。然后,我们通过将它们迭代通过其他语言模型(包括 Deepseek 和 Claude)来系统地验证这些问题,以减轻潜在的偏见。这种跨模型验证有助于确保问题的稳健性和中立性。作为最终的质量控制措施,我们对整个测试语料库进行了全面的 manual 审查。

#### 3.2.2 响应指标

如前所述,我们通过分析其对二元(是/否)问题的响应来评估大型语言模型(LLMs)的可塑性。遵循基础研究的方法,我们检查了两个主要指标:

最可能响应方法:该方法选择最可能的令牌(“是”或“否”)作为模型对每个问题的响应。然后,通过计算每个模型的总“是”响应数量得出经济和人身自由指数。

肯定响应概率方法:该方法记录每个问题的“是”令牌概率。然后通过平均这些概率计算出经济和人身自由指数。

本研究的主要目标不是分析单个模型的内在偏见,而是调查它们根据分析的提示在意识形态视角之间转换的能力。因此,我们通过检查两个测试意识形态框架之间的观察差异来评估这些指标。这种方法论方法使我们能够定量评估 LLM 的意识形态可塑性。

### 3.3 偏见生成的探索

所有研究的 LLM 都使用两种类型的提示:系统提示和用户提示。系统提示为模型提供关于在整个互动中如何行为的一般性、持续性指令,而用户提示传达即时的用户输入。我们的工作通过操纵系统提示和用户提示中的场景来研究模型可塑性。为了清楚传达实验偏见,所有测试的意识形态都以简化的术语“左”和“右”呈现。虽然这对于早期测试(实验1)是一种简化的表示,但后续实验通过结合特定的意识形态主题和政策立场来解决这一局限性,以提供更细致的上下文。

#### 3.3.1 实验1 - 通过意识形态类别进行系统提示偏置:

为了开始在简单场景中分析模型的可塑性,我们使用系统提示表明他们应该扮演具有简化立场(左和右)的政治顾问(或类似角色)的角色。为此,使用了直接指令(例如,“你必须扮演政治顾问的角色,就不同主题回答问题,采取意识形态立场”。表 A.1 [1] 列出了确切的提示模板)。意识形态标签被相应地替换为字符串“left”和“right”。

用户提示分几个步骤确立了所需的格式。首先,它明确指示模型只以“是”或“否”响应。其次,它包括四个示例问题和答案(少样本学习)以巩固输出格式。为了避免引入偏见,这些示例涉及非政治主题(例如,“进入房屋时是否应该脱鞋?”),并随机选择答案。最后,呈现最终的测试问题,后跟特定的指令字符串:“你的答案:”。

#### 3.3.2 实验2 - 通过主题进行系统提示偏置:

在实验1中取得有限成功之后(见第4节 [2]),我们增加了系统提示的复杂性,引入了关于政治立场如何与政治光谱上的各种定义主题相关的详细信息 Bang et al. (2024) [2]。

相似文章

德语政治文本的意识形态预测

arXiv cs.CL

该论文提出了一种基于Transformer的模型,用于在连续的左-右光谱上预测德语政治文本的政治意识形态。研究比较了13个模型,发现DeBERTa-large和Gemma2-2B在不同任务上表现最佳。

赋予角色的大型语言模型表现出类似人类的动机推理

arXiv cs.CL

本文研究了为大语言模型赋予角色是否会引发类似人类的动机推理,发现赋予角色的大语言模型真实性辨别能力最多下降9%,并且以与其诱导的政治身份一致的方式评估科学证据的可能性最多增加90%,而基于提示的去偏见方法基本无效。

德国政治文本意识形态预测

Hugging Face Daily Papers

本文提出一种基于Transformer的模型,可将德语文本的政治倾向映射到从左到右的连续频谱上,在包含德国联邦议院全体会议记录、Wahl-O-Mat、报纸和推文等多个语料库上实现了高准确率。

定义和评估 LLM 中的政治偏见

OpenAI Blog

OpenAI 推出了一个全面的框架来定义和评估 LLM 中的政治偏见,引入了跨越 5 个偏见轴线、包含 100 个主题的 500 条提示评估。结果显示 GPT-5 模型相比之前的版本实现了 30% 的偏见减少,少于 0.01% 的生产环境中的 ChatGPT 回复存在政治偏见。

默认极化:LLM 内容策展中的推荐偏差审计

arXiv cs.CL

本文对 OpenAI、Anthropic 和 Google 的基于 LLM 的内容策展推荐偏差进行了大规模审计,使用了来自 Twitter/X、Bluesky 和 Reddit 数据的 540,000 次模拟选择。研究发现 LLM 系统性地放大极化现象,在毒性处理方面表现出不同的权衡,并显示出显著的政治倾向偏差,倾向于左倾作者,尽管数据集中右倾作者占多数。