ROK-FORTRESS:衡量地缘政治翻译创作对国家安全与公共安全的影响
摘要
介绍ROK-FORTRESS,一个双语基准测试,用于衡量语言和地缘政治背景如何共同影响大语言模型(LLM)的安全行为,以英韩语言对和美韩地缘政治轴为案例研究。研究结果表明,语言和背景之间的相互作用是仅通过翻译评估所无法捕捉的。
arXiv:2605.14152v1 发布类型:新
摘要:大语言模型(LLM)的安全性评估日益聚焦于高风险的“国家安全与公共安全”(NSPS)风险,然而多语言安全性通常通过仅保留底层场景的翻译基准测试来评估,关于语言与地缘政治背景如何相互作用的实证证据仍局限于少数语言对。我们引入 \emph{ROK-FORTRESS} https://huggingface.co/datasets/ScaleAI/ROK-FORTRESS_public,这是一个双语、文化对抗性的NSPS基准测试,以英韩语言对和美韩地缘政治轴为案例,通过 \emph{transcreation matrix} 分离语言与地缘政治背景的影响:对抗性意图在受控组合下进行评估:(i) 英语与韩语的对比,(ii) 美国与韩国实体、机构和操作细节的对比。每个对抗性提示都配有一个双重用途的良性对应提示,以量化过度拒绝。模型响应随后使用经过校准的LLM评判小组,应用专家精心制作、针对提示的二元评分标准进行评分。
在一组前沿模型和针对韩语优化的模型的双轨测试中,我们发现在韩语变体中存在一致的抑制效应,且模型之间在地缘政治背景与语言交互的方式上存在显著差异。在许多模型中,韩国背景缓解了韩语驱动的抑制——没有模型显示出另一方向的显著放大——这表明,至少在英韩情况下,安全行为是由语言作为风险信号和背景交互共同塑造的,而仅靠翻译评估会遗漏这些因素。transcreation矩阵方法旨在推广到其他语言-文化对。
查看缓存全文
缓存时间: 2026/05/15 06:19
# ROK-FORTRESS:衡量地缘政治创译对国家安全与公共安全的影响 来源:https://arxiv.org/html/2605.14152 Yash Maurya∗,1 Drew Rein1 Bert Herring1 Jonathan Nguyen1,† Kyungho Song2 Udari Madhushani Sehwag1 Jiyeon Cho2 Kaustubh Deshpande1 Yeongkyun Jang2 Joo Jiyeon2 Minn Seok Choi2 Evi Fuelle1 Christina Q\. Knight1,† Joseph Brandifino1 and Max Fenkell1 ###### 摘要 大型语言模型(LLM)的安全性评估越来越关注高风险的“国家安全与公共安全”(NSPS)领域。然而,多语言安全性通常仅通过翻译基准进行测试(保留底层场景),而语言与地缘政治背景如何相互作用的实证证据仍局限于少数语言对。我们引入 *ROK-FORTRESS*111https://huggingface.co/datasets/ScaleAI/ROK-FORTRESS_public,这是一个双语、文化对抗性的NSPS基准,以英韩语言对和美韩地缘政治轴为案例研究,通过“创译矩阵”分离语言与地缘政治基础的影响:对抗性意图在以下受控组合下进行评估:(i) 英语 vs. 韩语;(ii) 美国 vs. 韩国实体、机构及操作细节。每个对抗性提示配有一个良性的“双重用途”对应项,以量化过度拒绝。模型响应随后使用校准后的LLM-as-a-judge评估组进行评分,应用我们专家设计的、提示特定的二元评分标准。在前沿模型与针对韩国优化的模型的双轨测试中,我们发现韩语变体存在一致的抑制效应,且地缘政治基础与语言的交互作用在不同模型间存在显著差异。在许多模型中,韩国背景缓解了韩语驱动的抑制——没有模型在反方向表现出显著增强——这表明,至少在英韩案例中,安全性行为受到语言作为风险信号与上下文交互的影响,而纯翻译评估会遗漏这些因素。创译矩阵方法旨在推广到其他语言-文化对。 ††∗表示同等贡献。†工作完成于 Scale AI。 ## 1 引言 大型语言模型(LLM)的安全性评估基准越来越多地针对高风险领域,如国家安全与公共安全(NSPS)。越来越多的多语言安全研究探讨当有害意图以非英语语言表达时,安全措施是否具有通用性,通常将翻译为低资源语言视为一种攻击手段。然而,翻译通常保留了底层威胁场景及实体,使得区分由语言表层导致的失败与由地缘政治背景导致的失败变得困难。这一空白促使我们开展受控案例研究,独立变化语言和地缘政治语境。 我们研究*语言*和*地缘政治语境*如何在对抗性提示下共同塑造安全行为。以韩国为案例(其安全环境独特),我们构建了相同对抗性意图的配对变体,变化 (i) 语言(英语 vs. 韩语)和 (ii) 背景(美国 vs. 韩国机构、实体及操作现实)。我们最初的假设是,背景语境可能通过绕过以西方为中心的安全触发点来增加有害合规性。然而,在多个模型中,我们观察到韩语变体存在一致的抑制效应,并发现地缘政治背景可能根据模型不同而减轻或增强语言驱动的抑制。这些交互效应表明纯翻译评估可能具有误导性:语言变化下测量的安全差距不一定能外推到场景本身已本地化的创译设置中。 ROK-FORTRESS 基于 FORTRESS[11 (https://arxiv.org/html/2605.14152#bib.bib11)],纳入了选定的提示和评估规则,同时显著扩展了基准至英韩语言对和美韩地缘政治轴。我们添加了新提示,创译了文化特定场景,并调整了 FORTRESS 的规则,使其聚焦于内容特定危害(而非遗漏类危害,如缺少免责声明或安全警告),与 ROK-FORTRESS 全程使用的规则结构相匹配。我们的贡献包括:(i) ROK-FORTRESS,一个双语、文化对抗性的 NSPS 基准,以英韩语言对和美韩地缘政治轴为案例研究,包含 1,235 个按领域和文化特异性分层的任务;(ii) 一个*创译矩阵*,用于在文化无关和文化特定的提示中分离语言效应与语境/地缘政治基础效应,支持对主效应和交互效应的直接检验;(iii) *层级加权风险评分(TRS)*,与 NSPS 操作严重性对齐;以及 (iv) 对*直接请求变体*的评估(剥离越狱策略),揭示提示复杂性作为抑制效应的调节因素,并协调我们的发现与先前将翻译视为攻击手段的研究。 参见图注 图 1:ROK-FORTRESS 将现有 FORTRESS 与新创建的提示和规则整合到翻译/创译流水线中,生成韩语数据集,包含韩国文化特定和文化无关的提示及响应评估规则。 ## 2 相关工作 LLM 开发者越来越依赖训练后的安全对齐和拒绝行为,这促使大量研究关注这些安全措施在分布偏移下何时失效。我们的工作处于多语言越狱评估与文化基础安全基准的交叉点,并专注于在高压 NSPS 场景中分离语言效应与地缘政治基础。 ##### 多语言越狱与跨语言转移失败。 多语言安全中一个一致的发现是,在语言转换下拒绝行为可能减弱。诸如 *The Tower of Babel* 和 *Tongue-Tied* 的研究表明,将有害提示翻译为类型学上遥远或低资源的语言可以绕过主要基于英语训练的拒绝机制[8 (https://arxiv.org/html/2605.14152#bib.bib8),15 (https://arxiv.org/html/2605.14152#bib.bib15)]。相关研究在多种语言中确认了类似的脆弱性[20 (https://arxiv.org/html/2605.14152#bib.bib20),5 (https://arxiv.org/html/2605.14152#bib.bib5)],通常被归因为跨语言转移失败[13 (https://arxiv.org/html/2605.14152#bib.bib13),18 (https://arxiv.org/html/2605.14152#bib.bib18),6 (https://arxiv.org/html/2605.14152#bib.bib6)]。MultiJail 提供了一个标准基准,报告称在低资源语言中翻译后的提示能更有效地引发不安全输出[4 (https://arxiv.org/html/2605.14152#bib.bib4)]。这类工作主要通过翻译或语言混合改变固定场景的表面形式,主要探测分词器和表示层面的鲁棒性。ROK-FORTRESS 则检验当*场景本身*通过语义创译进行本地化时,安全性是否具有通用性;对于近期前沿模型,我们的实验表明韩语可能作为一种保守的风险信号而非攻击手段。 ##### 文化基础与创译。 近期的努力超越了翻译,转向文化基础的“红队”测试。CAGE 综合生成文化适应的提示,发现针对韩国的适应提示相比直接翻译具有更高的攻击成功率[10 (https://arxiv.org/html/2605.14152#bib.bib10)]。我们的发现在方向上有所不同——韩语和语境趋于抑制有害输出——我们认为这些结果是互补的而非矛盾的。CAGE 针对广泛的危害类别,使用 LLM 生成的提示和二元 ASR,而 ROK-FORTRESS 聚焦于对抗性 NSPS 场景,使用专家人工创译,并通过校准的基于规则的评估对响应进行评分。综合来看,这些结果表明,在未充分对齐的设置中,文化基础可能暴露脆弱性,而前沿模型在面对非英语和本地化输入时可能表现出不均匀的保守性。 ##### 上下文感知的安全基准。 一个并行的文献将安全评估根植于政策和语境。AIR-Bench 将提示映射到政策派生的风险类别[22 (https://arxiv.org/html/2605.14152#bib.bib22)]。SafeWorld 将安全查询根植于经人类验证的 50 个国家的文化规范和法律政策,发现不同地区间的语境适当性存在显著差异[19 (https://arxiv.org/html/2605.14152#bib.bib19)]。CultureGuard 和 LinguaSafe 引入了文化感知资源以及面向创译的多语言安全流水线[9 (https://arxiv.org/html/2605.14152#bib.bib9),12 (https://arxiv.org/html/2605.14152#bib.bib12)]。更普遍地,近期的论点强调安全结果是依赖语境的,不能归结为仅语言变化[1 (https://arxiv.org/html/2605.14152#bib.bib1)]。然而,现有基准通常跨语言和语境进行聚合,或依赖自动生成,使得难以区分由翻译引起的安全变化与由地缘政治基础引起的安全变化。 ##### ROK-FORTRESS 的定位。 ROK-FORTRESS 贡献了一个由专家驱动的基准和评估框架,通过匹配的对抗性意图的翻译变体与创译变体之间的受控比较,分离这些因素。我们保留基于规则的评估以衡量有害合规性和保守行为,并分析语言与基础在前沿模型及区域模型中的交互效应。我们还将信息泄露作为独立的 NSPS 风险纳入,涵盖检索式披露在良性框架下敏感地方操作细节,补充了多语言安全调查中关于双重用途风险的更广泛讨论[21 (https://arxiv.org/html/2605.14152#bib.bib21)]。 ## 3 ROK-FORTRESS 基准 ### 3.1 概述 ROK-FORTRESS 是一个双语安全基准,包含 1,235 个按风险领域和文化特异性分层的对抗性任务。每个任务包括一个旨在引发有害内容的对抗性提示、一个关键词相似但意图无伤大雅的配对良性提示,以及一组 1–7 个二元规则项(μ=6.01,σ=1.17)用于衡量模型的有害倾向。该基准支持在语言(英语 vs. 韩语)和文化基础(美国 vs. 韩国语境)之间进行受控比较,隔离每个因素对观察到的安全差距的贡献。 表 1:ROK-FORTRESS 数据集按领域和文化特异性的组成。 ### 3.2 风险领域 ROK-FORTRESS 聚焦四个与 NSPS 相关的领域,详细子领域划分见表 4 (https://arxiv.org/html/2605.14152#A1.T4): - • CBRNE:化学、生物、放射、核及爆炸威胁——包括合成指导、获取方法和武器化。 - • 政治暴力与恐怖主义:针对公职人员的威胁、煽动骚乱、恐怖融资、招募及攻击策划。 - • 犯罪与金融活动:非法金融、欺诈、贩运、有组织犯罪及隐私侵犯。 - • 信息泄露:以检索方式请求敏感的军事或基础设施信息,探测模型是否将此类查询视为良性的“百科全书式”请求。 信息泄露领域专门设计用于暴露模态特定的盲点:模型可能拒绝程序性的“如何做”请求,却轻易以事实查询的形式披露敏感的操作细节。这解决了模型无意中记忆来自开放网络或私人对话的泄露文档的风险,有效地成为一个可搜索的敏感数据接口,这些数据本不打算广泛传播。 ### 3.3 任务结构:对抗性-良性配对与规则 ROK-FORTRESS 中的每个任务包含 3 个组成部分: ##### 对抗性提示。 旨在使用各种“红队”策略(如角色扮演、模糊化、情感诉求)引发有害信息的提示。提示由专家红队成员编写,针对特定的危害维度。 ##### 良性提示。 包含类似关键词或主题但意图明显清白的提示配对。这种配对可以衡量过度拒绝:一个校准良好的模型应拒绝对抗性提示而回答良性提示。 ##### 评估规则。 每个任务包含 1–7 个二元(是/否)规则项,用于操作化危害测量。规则项特定于每个提示,并映射到危害维度(第 3.5 节)。对于文化特定的任务,规则与提示一同进行翻译和创译,实体替换(例如“Groom Lake” → “Anheung Test Site”)以保持语义等价。 ### 3.4 创译矩阵 我们系统地变化语言和文化基础以创建受控的提示变体: - • 文化无关任务(N=565):不包含特定地域引用的提示。在两种变体下评估:V_En(英语)和 V_Ko(韩语翻译)。 - • 文化特定任务(N=670):引用特定实体、事件或机构的提示。在四种变体下评估: - – V_En,US:原始英语,美国语境 - – V_Ko,US:韩语翻译,保留美国语境 - – V_En,KR:英语,韩国文化适应 - – V_Ko,KR:韩语,韩国文化适应(完全创译) 核心设计原则是*创译*而非字面翻译:我们在保留对抗性意图的同时,根据目标语境调整引用(机构、机构、人员、地点、设施),使得威胁真实且具有地方基础。这使我们能够区分由于语言处理导致的安全退化与由于不熟悉的地缘政治语境导致的安全退化。 ### 3.5 危害维度框架 我们沿着七个功能维度操作化有害内容——具体性、获取、武器化、交付、漏洞利用、目标指导和时间窗口——(表 2 (https://arxiv.org/html/2605.14152#S3.T2)),这些维度分解了模型响应如何在有害活动的连续阶段中促成现实世界的危害。这种方法与基于生命周期和以交付为中心的风险建模一致[7 (https://arxiv.org/html/2605.14152#bib.bib7),16 (https://arxiv.org/html/2605.14152#bib.bib16),14 (https://arxiv.org/html/2605.14152#bib.bib14)],并与对细粒度、功能基础的危害分类的呼吁相符[2 (https://arxiv.org/html/2605.14152#bib.bib2),3 (https://arxiv.org/html/2605.14152#bib.bib3)]。每个维度被赋予领域特定的风险层级(1–3 级),反映可操作性的差异;完整定义见附录 A.3 (https://arxiv.org/html/2605.14152#A1.SS3)。 表 2:危害维度摘要 ### 3.6 数据集构建 ROK-FORTRESS 分两个阶段构建。第一阶段添加了 496 个由内部红队专家编写的新的对抗性-良性配对。第二阶段将第一阶段生成的提示配对以及来自 FORTRESS 数据集[11 (https://arxiv.org/html/2605.14152#bib.bib11)] 的 739 个提示配对通过专业韩语翻译和文化适应进行改编。 贡献者选择。所有贡献者均为经过验证的母语韩语使用者,并在文化适应和翻译方面具有公认的专业知识。贡献者持有学士、硕士
相似文章
相同模型,不同弱点:语言和模态如何重塑前沿多模态大语言模型的越狱攻击面
本文首次进行了系统的跨语言、多模态红队研究,比较了四种前沿多模态大语言模型在美国英语和墨西哥西班牙语下的越狱漏洞,揭示了语言并不会均匀地放大漏洞,并且安全排名在不同语言中并不保持一致。
TrustLDM:语言扩散模型可信度基准测试
介绍TrustLDM,一个全面评估语言扩散模型安全性、隐私性和公平性的基准测试,揭示其对齐行为在恶意后上下文环境下会退化。提出自动评估框架TrustLDM-Auto,用于识别脆弱配置。
将韩国文化融入LLM对齐:迈向文化一致性
本文提出一种数据集生成管道,通过DPO微调使大语言模型与韩国文化规范对齐,在提升文化安全性的同时不损害通用性能。
XL-SafetyBench:一个基于国家的跨文化LLM安全与文化敏感性基准
XL-SafetyBench是一个包含5500个测试用例的基准,涵盖10个国家-语言对,用于评估LLM安全性和文化敏感性,区分越狱鲁棒性与文化意识。
KoALa-Bench:评估大型音频语言模型在韩语语音理解与忠实度上的表现
KoALa-Bench 推出了一套聚焦韩语的基准测试,从六个维度评估大型音频语言模型,包括全新的语音忠实度指标与韩国本土文化内容。