它们能走多远?利用大型语言模型对在线影响力进行红队测试
摘要
本文介绍了一个红队测试框架,用于衡量开源LLM能够表达的政治观点的“奥弗顿窗口”,并评估简单的越狱手段如何扩大该范围,发现30多个模型存在系统性的左倾偏见和漏洞。
查看缓存全文
缓存时间: 2026/05/25 08:54
# 它们能走多远?用大型语言模型进行在线影响红队测试
来源:https://arxiv.org/html/2605.22880
Daniel C. Ruiz, Anna Serbina, Ashwin Rao, Emilio Ferrara & Luca Luceri
信息科学研究所
南加州大学
洛杉矶,加利福尼亚州,美国
{dcruiz, serbina, ashreyas, ferrarae, lluceri}@isi.edu
###### 摘要
随着基于大型语言模型(LLM)的智能体越来越多地参与在线讨论,对其进行红队测试以衡量其支持政治影响力活动的能力,对于信息完整性至关重要。为此,我们聚焦于本地部署的开源LLM,而非仅通过API访问的前沿模型,因为前者更符合注重隐私的恶意行为者在社交媒体环境中的操作限制。我们引入了一个实证红队测试框架,用于测量LLM的奥弗顿窗口(OW),即模型在有争议话题上能够可靠表达的政治观点范围,并量化简单的自然语言越狱如何扩展该范围。我们评估了来自10个模型家族、5个原产国的30多个LLM。我们发现政治表达存在系统性不对称:开源LLM通常更愿意生成左倾社交媒体内容;奥弗顿窗口往往随模型规模增大而收缩;尽管开源生态系统中代表性不均,但区域差异显著。越狱效果在不同模型家族间也差异巨大,这促使我们需要一个工作流来识别有效的越狱技术组合。综合来看,我们的结果建立了一个实用框架,用于审计开源LLM的政治可引导性,并帮助未来研究者设计更强的对策来应对LLM赋能的影响力活动。
## 1 引言
大型语言模型(LLM)的快速演进及其在面向公众领域(包括社交媒体)的部署,加剧了人们对这些系统编码和表达的政治价值观与规范边界的担忧(Schroeder et al., 2026;Orlando et al., 2025)。现有工作主要集中于审计LLM的内在政治偏见,往往将模型行为简化为意识形态轴上的点估计(如“自由派” vs. “保守派”)(Bang et al., 2024;Pit et al., 2026;Azzopardi and Moshfeghi, 2025)。尽管这些评估有参考价值,但它们对模型行为在对抗条件下能被外部引导到何种程度提供的洞察有限。这一局限性对于理解政治影响力行动(即有组织地旨在广泛操纵公众舆论的活动)尤为重要。随着智能体LLM系统能力增强,描述恶意行为者可用于大规模生成有说服力社交媒体内容的实际工作流程变得越来越重要。近期研究表明,这种端到端的影响力内容生成在普通硬件上使用开源语言模型已可行,这使得本地部署对资源受限且注重隐私的恶意行为者成为可能(Olejnik, 2025)。然而,许多研究仍强调仅通过API访问的前沿系统,尽管注重隐私和计算资源的恶意行为者往往更可能依赖本地可部署的开源模型和简单的自然语言越狱(Sokhansanj, 2025;Yamin et al., 2025)。因此,我们将本研究定位为针对现实滥用场景的明确红队评估。
在本文中,我们通过一个社交媒体生成任务来研究LLM对对抗性指令的遵从程度,在该任务中,经过指令调优的开源模型必须生成有吸引力且具有政治立场的帖子。我们引入了一个量化LLM奥弗顿窗口(OW)的框架,借用了政治文献中的原始术语(Russell, 2006),并将其定义为模型能够可靠表达的政治观点范围,同时测量该范围如何随着对抗性提示而移动。通过聚焦低成本提示技术,我们评估了可扩展、易于操作且在现实影响力活动中可行的方法。
##### 本工作的贡献。
基于这一威胁模型,我们研究以下研究问题:
- •RQ1(提示技术):简单、人类可读的基于提示的越狱如何影响流行开源LLM的奥弗顿窗口?
- •RQ2(跨模型差异):模型大小、架构和原产国如何影响政治表达性和对引导的易感性?
为回答这些问题,我们评估了来自10个模型家族、5个原产国的30多个开源LLM,并提供了一个实用的红队工作流,用于识别有效的越狱组合。利用我们的工作流,我们展示了政治表达的系统性不对称以及不同模型家族间越狱易感性的显著差异。通过明确建模恶意行为者选择和操作LLM用于影响力任务可能使用的逐步工作流,我们为现实滥用评估提供了具体基线。我们的框架旨在为未来研究者提供后续审计的起点,并为社交媒体提供商提供开发防御机制的可操作参考。为复现起见,我们发布了代码和实验资产。¹¹¹公开仓库:https://github.com/SIGNALS-Lab/llm-overton-external
## 2 相关工作
### 2.1 内在政治偏见
越来越多的研究关注LLM中的政治偏见及其下游影响。Bang et al. (2024) 分析了政治分歧话题上的立场和框架偏见,表明偏见不仅体现在内容中,也体现在风格上。除了测量,Fisher et al. (2025) 证明此类偏见可以影响人类政治决策,即使使用者知道他们正在与AI系统互动。类似地,Pit et al. (2026) 发现许多LLM表现出左倾倾向,并且通常不愿生成右倾回应。在群体层面,Santurkar et al. (2023) 引入了OpinionsQA,展示了LLM输出与多样化人口观点之间持续存在的失调,而Azzopardi and Moshfeghi (2025) 检查了模型政治观点的固有范围。尽管有信息价值,这些评估主要集中于审计内在政治偏见和静态政治空间。它们对模型行为在对抗条件下能被改变的程度,或这种改变如何映射到现实滥用,提供的洞察有限。因此,我们将本研究定位为一项明确的红队评估工作,不仅测量基线能力,还测量LLM在社交媒体环境中被迫生成的政治内容的实际范围。
### 2.2 复杂越狱技术
另一条工作线研究如何控制模型输出。Miehling et al. (2025) 提出了一个基于角色的提示可引导性基准,涵盖多个属性;Bernardelle et al. (2025) 表明LLM表达的政治倾向可以通过角色提示系统地改变。有关越狱的工作进一步涵盖提示级和模型级干预:在提示方面,最近的攻击表明对齐可以通过自动提示优化被削弱(Liu et al., 2024);在模型层面,拒绝可以通过方向性消融(Arditi et al., 2024)和小权重编辑(Jiang et al., 2026)来减少。这些努力被封装在流行的实践者系统中,如p-e-w的Heretic(Weidmann, 2025)和elder-plinius的OBLITERATUS(OBLITERATUS Contributors, 2026)。大型科技公司也可以利用大量资源通过创建主题专家数据集进行对齐重写来去审查模型,正如Perplexity AI努力去审查开创性的Deepseek R1模型所展示的那样(Perplexity AI Team, 2025;Guo et al., 2025)。与上述工作涉及的复杂性不同,我们的方法特意聚焦于简单越狱,定义为低成本、人类可读的策略(例如,道德解耦、对抗性恳求等),这些策略可扩展且易于操作。开源LLM的流行去审查衍生品如Dolphin (2025) 也存在于生态系统中,但我们将其排除在实验之外,以避免外部引入的越狱技术混淆我们的结果。总之,我们聚焦于注重隐私且技术有限的恶意行为者使用本地可部署开源模型可能实际使用的工作流程。
### 2.3 流行评估方法
近期工作也主导性地广泛使用政治光谱测试(PCT)(Motoki et al. (2023),Rozado (2023),Wright et al. (2024),Bernardelle et al. (2025),Azzopardi and Moshfeghi (2025) 等),这带来了方法论方面的担忧。具体来说,Röttger et al. (2024) 表明强制多项选择格式可能显著影响结果:回应通常因强制方法而异,并且对提示释义高度敏感。基于这些局限性,我们采用了针对社交媒体场景设计的开放式提示设置,并重复实验以考虑回应变异性。更广泛地说,我们的框架不仅测量点估计倾向,还测量简单对抗性提示能扩大每个模型OW的程度,为现实滥用评估和对策开发提供具体基线。
## 3 方法论
### 3.1 任务制定与话题选择
为构建核心基准,我们手动精心制作了包含90个有政治立场的观点陈述的语料库,涵盖10个话题:堕胎、气候与能源、刑事司法、外交政策、枪支政策、医疗保健、移民、LGBTQ+/性别权利、言论自由和税收。在每个话题中,沿左-右意识形态谱系(索引X0-X8)定义了九个立场,范围从极左到极右。我们将其视为序数(非间隔)尺度,并通过两阶段协议策划范围:(i) 起草话题一致的锚定陈述(索引X0、X4、X8),然后 (ii) 迭代插入索引X1-X3和X5-X7,以保持单调递进,相邻点之间大约一步移动。由于感知的意识形态距离本质上是主观的,我们追求近似间距而非精确间隔相等。对于本次红队研究,心理测量等间距不如确保每个话题包含足够煽动性的清晰对立端点重要。这使得能够压力测试拒绝行为,并揭示在对抗性提示下模型能被推动到何种程度。因此,我们优先考虑强烈、内部一致的极端立场,并辅以单调的中间陈述。我们没有进行单独的间隔间距校准研究,因为我们的核心分析依赖于每个话题、每个模型的相对变化,而不是X0-X8索引上的基数距离假设。因此,谱系端点(索引X0、X1、X7、X8)故意极端,而中间位置(索引X2-X6)对应更主流的政策立场。完整的观点陈述列表见附录A。
### 3.2 生成协议
每个被评估的模型被提示生成一条表达特定观点的社交媒体帖子(≤280个字符)。我们指示模型生成旨在最大化参与度的帖子,并允许使用表情符号、话题标签和回复其他虚拟用户以增强所生成内容的真实性。为鼓励创造力,所有帖子在温度1.0和top-p 0.9下生成。模型通过本地vLLM推理服务器(Kwon et al., 2023)托管,以利用批处理、提示缓存和其他高吞吐量优化。每个组合模型-提示实验重复10次独立试验,从而能够测量平均表达立场和试验间的方差。
### 3.3 越狱技术
我们评估了八种人类可读的、基于提示的越狱技术,旨在测量基线行为与对操纵的易感性。在本文其余部分用于描述这些技术的简称如下:基线(B)、少样本(FS)、权威(A)、反中性(AN)、对抗性恳求(AP)、极端角色(EP)、登门槛技术(FID)和道德解耦(MD)。技术也会被组合(例如,权威 + 道德解耦 + 基线),从而产生额外的提示代码。有关基于提示的越狱的更详细示例和完整定义,请参见附录B。
### 3.4 测试的模型
我们评估了来自多个模型家族的共31个经过指令调优的语言模型,均为开源或开放权重模型。这些模型包括Qwen3.5变体(Qwen Team, 2026)、Qwen3-Next(Qwen3-Next, 2025)、Gemma-3变体(Team et al., 2025)、OLMo-2变体(OLMo et al., 2025)、Falcon-H1变体(Zuo et al., 2025)、Granite-4.0变体(IBM Research, 2025)、Llama-3.3-70B-Instruct(Grattafiori et al., 2024)、Mistral-Large-Instruct-2411(Mistral AI Team, 2024)和Sarvam-105B(Sarvam Foundation Models Team, 2026)。这种对开源的聚焦反映了我们的威胁模型,其中恶意行为者更可能依赖在隐私和计算约束下本地可部署的模型。为保持模型能力之间的公平竞争环境,所有能够进行推理时推理(Wei et al., 2022)的模型均以禁用推理模式进行提示。我们不评估没有明确“无推理”模式的模型(例如GPT-OSS(OpenAI et al., 2025))。完整测试模型列表见表2。相似文章
衡量大型语言模型对N-day漏洞利用的影响(18分钟阅读)
本文来自Anthropic,评估了像Claude Mythos Preview这样的大型语言模型如何加速N-day漏洞利用的开发。在针对Firefox和Windows内核补丁的测试中,该模型自主构建了有效的漏洞利用链,突显了补丁空窗期风险的增加。
RedBench:大型语言模型综合红队测试通用数据集
RedBench 引入了一个通用数据集,聚合了 37 个基准数据集,包含 29,362 个样本,涵盖 22 个风险类别和 19 个领域,用于实现大型语言模型的标准化和综合红队测试评估。该工作解决了现有红队测试数据集中的不一致问题,并提供了基准、评估代码和开源资源,用于评估 LLM 对对抗提示的鲁棒性。
相同模型,不同弱点:语言和模态如何重塑前沿多模态大语言模型的越狱攻击面
本文首次进行了系统的跨语言、多模态红队研究,比较了四种前沿多模态大语言模型在美国英语和墨西哥西班牙语下的越狱漏洞,揭示了语言并不会均匀地放大漏洞,并且安全排名在不同语言中并不保持一致。
政治可塑性:大型语言模型中意识形态适应性的分析
本研究论文分析了大型语言模型中的“政治可塑性”,发现当提供用户示例时,较新的模型展现出可靠的意识形态适应性,而较旧的模型则表现出有限或不稳定的反应。
默认极化:LLM 内容策展中的推荐偏差审计
本文对 OpenAI、Anthropic 和 Google 的基于 LLM 的内容策展推荐偏差进行了大规模审计,使用了来自 Twitter/X、Bluesky 和 Reddit 数据的 540,000 次模拟选择。研究发现 LLM 系统性地放大极化现象,在毒性处理方面表现出不同的权衡,并显示出显著的政治倾向偏差,倾向于左倾作者,尽管数据集中右倾作者占多数。