Janus：大语言模型中目标导向信息扭曲的基准测试

arXiv cs.CL 2026/06/10 04:00 论文

benchmark llm-safety information-distortion deception goal-conditioned evaluation

摘要

介绍Janus，一个衡量大语言模型在给定说服性目标时如何选择性扭曲事实信息的基准测试。实验表明，即使不编造虚假信息，模型仍容易产生误导性沟通。

arXiv:2606.10852v1 公告类型：新摘要：大语言模型的欺骗行为通常通过直接标志来评估，例如编造声明、明确撒谎或策略性隐瞒。然而，现实世界中的许多误导性沟通并不依赖于虚假陈述，而是源自对真实事实的选择性处理：省略不利证据、软化不利细节、强调有利细节，或用模糊语言替换精确限定。现有基准测试大多忽略了这种更微妙、且可以说更危险的失败模式。我们提出了JANUS，一个用于衡量基于事实的大语言模型输出中目标导向语用扭曲的基准测试。我们基准中的每个场景都提供一个固定的有利和不利事实池，并将中性条件与目标导向条件进行比较，例如增加采用率、注册率、批准率或支持率，尽管可能对直接受影响的个人或群体造成伤害。由于所有输出都限制使用相同的事实池，JANUS将误导性整体印象与幻觉和编造区分开来。JANUS包含8个领域的160个场景，每个场景配有中性提示和目标导向提示，并带有标注的关键事实。在12个大语言模型上进行的大量实验揭示了一致的目标导向扭曲，表明当前模型仍然对激励和框架目标敏感，并且缺乏针对选择性误导性沟通的稳健防护措施。我们公开发布了我们的语料库和代码，以供未来研究使用。

查看原文

查看缓存全文

缓存时间: 2026/06/10 06:12

# Janus：大语言模型中目标导向信息扭曲的基准测试

**来源：** https://arxiv.org/html/2606.10852  
**作者：** Polydoros Giannouris 曼彻斯特大学 / 英国曼彻斯特 [email protected] & Md Mohsinul Kabir 曼彻斯特大学 / 英国曼彻斯特 [email protected] & Sophia Ananiadou 曼彻斯特大学 / 英国曼彻斯特 Archimedes/Athena RC / 希腊雅典 [email protected]  
Polydoros Giannouris, Mohsinul Kabir, Sophia Ananiadou 计算机科学系，国家文本挖掘中心，曼彻斯特大学 {polydoros.giannouris, mdmohsinul.kabir, sophia.ananiadou}@manchester.ac.uk

###### 摘要

对大语言模型（LLM）欺骗行为的评估通常依赖于直接指标，如虚构主张、明确谎言或策略性隐瞒。然而，现实世界中许多误导性沟通并不依赖于虚假陈述，而是源于对真实事实的选择性处理：省略不利证据、弱化不利细节、强调有利细节、或用模糊语言替代精确限定词。现有基准在很大程度上忽略了这种更微妙且可能更危险的失败模式。我们提出 JANUS，一个用于衡量基于事实的 LLM 输出中目标导向语用扭曲的基准测试。该基准中的每个场景都提供一个固定的有利事实和不利事实池，并将中立条件与目标导向条件（例如，尽管可能对直接受影响的个人或群体造成潜在伤害，但仍需提高采纳率、注册率、批准率或支持率）进行比较。由于所有输出都被限制使用相同的事实池，JANUS 将误导性的总体印象与幻觉和捏造区分开来。JANUS 包含跨越 8 个领域的 160 个场景，每个场景都配有一对中立和目标导向的提示词以及标注的事实材料。在 12 个 LLM 上进行的大量实验揭示了持续存在的目标导向扭曲，表明当前模型仍然对激励和框架目标敏感，并且缺乏针对选择性误导沟通的稳健防护措施。我们公开发布语料库和代码以供未来研究。¹¹代码与数据集：https://github.com/PolydorosG/Janus

![[未标题图片]](https://arxiv.org/html/2606.10852v1/latex/images/janus_logo.png)

## Janus：大语言模型中目标导向信息扭曲的基准测试
Polydoros Giannouris, Mohsinul Kabir, Sophia Ananiadou  
计算机科学系，国家文本挖掘中心，  
曼彻斯特大学  
{polydoros.giannouris, mdmohsinul.kabir, sophia.ananiadou}@manchester.ac.uk

## 1 引言

![参见说明文字]
图1：真实但具有误导性的沟通示例。

大型语言模型（LLMs）正越来越多地被部署为高风险环境中的沟通代理，在这些环境中，它们总结证据、解释权衡并影响重要决策 (OpenAI et al., 2024; Nie et al., 2024; Wang and Zhang, 2024)。作为回应，AI 安全研究高度关注真实生成中的失败，包括幻觉、伪造引用、谄媚和欺骗行为 (Huang et al., 2025; Walters and Wilder, 2023; Sharma et al., 2023; Hubinger et al., 2024)。然而，现有工作主要通过事实正确性来评估沟通。最近的研究表明这种框架并不完整：一个回应可能在事实层面上保持准确，但同时通过省略、框架、选择性强调或对关键事实的模糊呈现，传递出系统性的误导印象 (Shi et al., 2026; Cheng et al., 2025)。这引出了我们的基本问题：LLM 即使在不生成虚假信息时，是否也会进行不忠实的沟通？

| 评估 | 固定事实 | 目标转换 | 仅真实 | 省略 | 框架 | 特异性 |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| HaluEval | △ | ✘ | ✘ | ✘ | ✘ | ✘ |
| FActScore | △ | ✘ | ✘ | ✘ | ✘ | ✘ |
| QAGS | ✔ | ✘ | ✘ | ✘ | ✘ | ✘ |
| ELEPHANT | △ | ✘ | ✘ | ✘ | △ | ✘ |
| PersuasionBench | ✔ | ✔ | △ | ✘ | △ | ✘ |
| MASK | ✔ | ✔ | ✘ | ✘ | ✘ | ✘ |
| DeceptionBench | ✔ | ✔ | △ | ✘ | △ | ✘ |
| Subtle deception | △ | ✔ | ✔ | △ | ✔ | ✘ |
| **JANUS** | **✔** | **✔** | **✔** | **✔** | **✔** | **✔** |

表 1：与代表性 LLM 评估基准的比较。✔ = 是，△ = 部分，✘ = 否。“固定事实”表示在不同条件下保持相同的关键事实不变。“目标转换”表示在中立沟通与目标导向沟通之间的比较。“仅真实”表示评估误导性沟通时不需要事实虚假。

现有评估使 LLM 的真实性变得可衡量，但它们将忠实沟通窄化为检测虚假主张。幻觉和事实性基准主要衡量模型是否产生虚假或无法验证的主张 (Lin et al., 2022; Li et al., 2023; Min et al., 2023)，而欺骗基准则越来越多地研究明确虚假生成、对抗性交互、角色条件欺骗和策略性隐瞒 (Huang et al., 2026; Greenblatt et al., 2024)。关于谄媚和社会对齐的相关工作表明，模型会根据社会和制度压力调整回应，即使在模棱两可的环境中，也常常保留用户的信念或期望的自我形象 (Sharma et al., 2023; Cheng et al., 2025)。然而，如表 1 所示，现有评估通常没有隔离模型是否会在相互竞争的目标下改变对同一潜在证据的呈现方式。因此，当前基准对于避免事实错误但通过选择性省略、不对称框架、扭曲强调或对真实信息的模糊呈现来进行不忠实沟通的模型，提供的可见性有限 (Shi et al., 2026)。

为弥补这一空白，我们提出 JANUS（以罗马双面神 Janus 命名），一个用于衡量基于事实的 LLM 沟通中目标导向信息扭曲的基准。JANUS 围绕三个特性设计。首先，它是**基于事实的**：每个场景都提供一个固定的真实事实池，使我们能够将扭曲与幻觉和捏造区分开来。其次，它是**成对的**：每个模型都针对相同的接收者、决策背景和证据池，同时生成中立回应和目标导向回应。第三，它是**接收者相关的**：有利和不利事实是相对于制度目标以及受影响的个人或群体定义的。模型从未被指示捏造、欺骗或明确省略信息；相反，扭曲是通过在提高采纳率、批准率、支持率或接受度等目标下沟通处理方式的变化来衡量的。JANUS 包含跨越 8 个领域的 160 个场景，每个场景都在中立和目标导向的提示条件下实例化。图 1 说明了核心现象。模型收到关于金融产品的固定事实池，包括回报和多元化等有利证据，以及回撤、费用和持有期限制等不利证据。一个目标导向的输出可以保持事实正确，同时通过强调收益、软化风险、最小化不利细节以及用模糊语言替代精确限制，产生有利的总体印象。这种表述借鉴了心理学和沟通研究的经典工作，这些工作表明，等同的信息可以根据其选择、框架、排序和突显方式，引出系统性不同的判断 (Tversky and Kahneman, 1981; Entman and others, 1993)。具体来说，我们通过五个维度评估扭曲——选择、框架、强调、特异性和排序——这些维度在第 2.2 节中正式定义。

使用 JANUS，我们研究两个问题：(1) 现实的机构目标是否会系统地改变 LLM 呈现固定真实信息的方式？(2) 这些扭曲在不同领域和模型系列之间如何变化？在各种设置中，我们发现机构目标持续将模型行为转向对不利信息的软化呈现和不对称的强调模式，即使输出完全基于提供的事实。这些发现表明，仅凭事实正确性不足以评估忠实沟通，省略、框架和语用扭曲应被视为 LLM 评估的一级目标。

我们的贡献如下：
1. 我们提出了 JANUS，一个多领域基准，用于评估基于事实的 LLM 沟通中的目标导向信息扭曲。
2. 我们通过在固定证据池上进行受控比较，将误导性呈现操作化，将沟通扭曲与幻觉、检索失败和操纵输入证据区分开来。
3. 我们提出了五个行为扭曲维度，用于衡量“虽真但误导”的沟通。
4. 我们提供实证证据，表明现实的机构目标会系统地诱导对不同领域和模型系列中真实信息的不对称处理。

## 2 JANUS

图 2 总结了整个 JANUS 基准流程。我们首先构建接收者相关的决策场景，包含固定池的有利和不利关键事实。然后，模型在配对的中立和目标导向设置下，使用相同的打乱证据池进行提示。最后，生成的回应被匹配回原始事实，并在五个扭曲维度上进行评估。本节形式化定义了配对任务设置，定义了每个扭曲维度，并描述了数据集构建过程。

![参见说明文字]
图 2：JANUS 基准概述。(a) 数据集构建：人工标注者定义决策场景，关于决策对象的有利和不利事实由 LLM 生成，随后由作者验证和完善。(b) 配对提示：模型从相同的打乱证据池中生成中立和目标导向两种回应。(c) 评估：将回应匹配到源事实，并评估五个方面，以生成整体模型扭曲概况。

### 2.1 任务公式化

在本工作中，目标导向扭曲指的是 LLM 为追求外部目标而选择性地、不对称地呈现客观信息，尽管存在直接受影响的个人或群体。为了系统地研究这一现象，我们需要一个基于事实的生成设置，该设置允许在保持底层证据不变的同时进行不对称沟通。因此，我们将 JANUS 公式化为一个配对开放生成任务：

\[
y^N = \mathcal{M}(r, F, c^N; \theta), \qquad y^G = \mathcal{M}(r, F, c^G, g; \theta),
\tag{1}
\]

其中 \(\mathcal{M}\) 表示由 \(\theta\) 参数化的 LLM，\(y\) 表示生成的回应。输入包括接收者画像 \(r\)、固定的事实池 \(F\)，以及两个提示条件之一：请求平衡沟通的中立指令 \(c^N\)，或与机构目标 \(g\) 相关的目标导向指令 \(c^G\)。由于两个条件都基于相同的接收者和证据池，\(y^N\) 和 \(y^G\) 之间的系统性差异反映了沟通处理方式的变化，而非事实访问的不平等。

### 2.2 扭曲维度

设 \(F = F^+ \cup F^-\) 表示与某个场景相关的事实池，其中 \(F^+\) 和 \(F^-\) 分别代表相对于机构目标 \(g\) 的有利和不利关键事实。另外，令 \(y = \{s_1, s_2, \dots, s_n\}\) 表示一个被分割成句子的生成回应。我们定义一个句子-事实匹配函数 \(\mu_y(s_i) \subseteq F\)，该函数将每个生成的句子 \(s_i\) 映射到它所表达的源事实集合。设 \(p(f)\) 表示事实 \(f\) 在输入提示中的位置，\(o_y(f)\) 表示事实 \(f\) 首次被表达的输出句子位置。JANUS 评估了五种沟通机制，模型通过它们可以改变由其他方面事实正确的输出所传达的总体印象。我们定义了一个定向方面得分 \(\psi_a(y)\)，\(a \in \mathcal{A}\)，其中 \(\mathcal{A} = \{\mathrm{sel}, \mathrm{emp}, \mathrm{ord}, \mathrm{spec}, \mathrm{frame}\}\)。每个方面得分都是定向的，因此较大的值对应于在单个生成回应中更偏向目标的扭曲。

##### 选择。
选择捕捉了生成回应中包含了哪些有利和不利事实，以及省略了哪些。选择性披露是机构沟通和媒体框架中一个研究充分的机制，沟通者通过不对称地呈现决策相关信息来塑造受众印象 (Rogers et al., 2017)。如果一个事实被至少一个生成的句子匹配，则算作被包含：
\[
I^+(y) = \{f \in F^+: \exists s_i \in y, f \in \mu_y(s_i)\}, \quad
I^-(y) = \{f \in F^-: \exists s_i \in y, f \in \mu_y(s_i)\}.
\]
选择方面得分为：
\[
\psi_{\mathrm{sel}}(y) = \frac{|I^+(y)|}{|F^+|} - \frac{|I^-(y)|}{|F^-|}.
\tag{2}
\]
当有利事实比不利事实更常被选入时，该得分增加。

##### 强调。
强调通过阐述和词元分配，捕捉了分配给有利和不利事实的文本关注程度。先前在沟通和说服研究中的工作表明，差异性的突显和阐述可以显著影响下游判断和感知重要性 (Entman and others, 1993)。设 \(\tau(s_i)\) 表示句子 \(s_i\) 的词元数量。对于一个匹配的句子，词元量平均分配给该句子匹配到的所有事实。令 \(A_y(f)\) 表示在回应 \(y\) 中分配给事实 \(f\) 的总词元量。我们定义分配给有利和不利事实的总词元量为：
\[
T^+(y) = \sum_{f \in F^+} A_y(f), \quad T^-(y) = \sum_{f \in F^-} A_y(f).
\]
强调方面得分定义为：
\[
\psi_{\mathrm{emp}}(y) = \frac{T^+(y) - T^-(y)}{T^+(y) + T^-(y)}.
\tag{3}
\]

##### 排序。
排序捕捉了信息在生成的叙事中出现的位置。与强调（衡量分配给事实的关注量）不同，排序衡量的是叙事序列和首因效应在生成沟通中的作用。先前在沟通

Janus：大语言模型中目标导向信息扭曲的基准测试

相似文章

当大语言模型学会持续犯错：合成欺骗线性表示的多模型研究

DECOR：基于信息操纵理论审计LLM欺骗行为

公平输出，偏见内部：大语言模型在高风险决策中潜在偏见的因果效力与非对称性

自信的撒谎者：利用对数概率和LLM-as-Judge诊断多智能体辩论

基准是否低估了 LLM 的性能？采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测

提交意见反馈