DECOR:基于信息操纵理论审计LLM欺骗行为

arXiv cs.CL 论文

摘要

介绍了DECOR,一个基于信息操纵理论的多智能体框架,用于细粒度审计LLM回应中的策略性欺骗,在15个前沿模型的欺骗检测基准测试中取得了最先进的性能。

arXiv:2605.19270v1 公告类型:新 摘要:大型语言模型能够通过巧妙操纵真实信息来欺骗——省略关键事实、转移重点或模糊含义——使得这种行为难以检测。现有的黑盒方法依赖于粗粒度的判断,可解释性有限,且无法指出哪些事实被扭曲以及如何扭曲。我们提出了DECOR,这是一个基于信息操纵理论的多智能体框架,用于细粒度审计LLM回应中的策略性欺骗。DECOR将输入上下文分解为原子信息单元,并根据操纵的四个维度对每个单元进行评分,生成可解释的操纵概要,最终汇总为全局欺骗指数。我们在涵盖真实场景的单轮和多轮欺骗检测基准上全面评估了DECOR,结果表明DECOR在两者上都取得了最先进的性能,超越了竞争基线。该框架在15个前沿模型上具有良好的泛化能力,消融研究证实了每个关键设计组件的贡献。我们的研究结果表明,基于理论的细粒度信息操纵审计为LLM欺骗检测提供了一条有效且可解释的路径。
查看原文
查看缓存全文

缓存时间: 2026/05/20 08:24

# Decor: 基于信息操控理论的LLM欺骗审计

来源:https://arxiv.org/html/2605.19270

林悦蔡¹,Samuel Yeh¹,Jwala Dhamala²,Rahul Gupta²,Sharon Li¹

¹威斯康星大学麦迪逊分校计算机科学系
²亚马逊

###### 摘要

大型语言模型可能通过巧妙地操控真实信息来进行欺骗——省略关键事实、转移焦点或模糊含义——使得此类行为难以检测。现有的黑盒方法依赖于粗粒度的判断,可解释性有限,且无法精确定位哪些事实被扭曲以及如何被扭曲。我们提出Decor,一个基于信息操控理论的多智能体框架,用于对LLM回应中的策略性欺骗进行细粒度审计。Decor将输入上下文分解为原子信息单元,并在四个操控维度上对每个单元与回应进行评分,生成可解释的操控配置文件,这些配置文件最终聚合成一个全局欺骗指数。我们在涵盖真实世界领域的单轮和多轮欺骗检测基准上全面评估了Decor,结果表明Decor在这两个基准上都达到了*最先进*的性能,超过了具有竞争力的基线。该框架可泛化至15个前沿模型,消融研究证实了每个关键设计组件的贡献。我们的发现表明,基于理论的细粒度信息操控审计为LLM欺骗检测提供了一条有效且可解释的路径。

## 1 引言

当人类进行欺骗时,他们并不总是诉诸于公然的捏造。社会心理学和传播学领域数十年的研究表明,日常欺骗通过更为微妙的方式进行:说话者可能隐瞒关键细节,重新表述一个不便的事实,将对话转移到无关话题,或故意使用模糊语言来掩盖误导性声明——而在其余部分保持技术上真实[27 (https://arxiv.org/html/2605.19270#bib.bib2), 26 (https://arxiv.org/html/2605.19270#bib.bib3), 7 (https://arxiv.org/html/2605.19270#bib.bib59), 44 (https://arxiv.org/html/2605.19270#bib.bib61)]。这种策略性操控难以检测,因为欺骗隐藏的不是说了什么,而是什么被省略、扭曲或模糊化了。

最近越来越多的研究开始揭示大型语言模型(LLMs)中惊人相似的行为。研究表明,LLMs可能进行对齐伪造[19 (https://arxiv.org/html/2605.19270#bib.bib30)],并在涉及财务建议、医疗保健和教育的高风险场景中策略性地操控信息[21 (https://arxiv.org/html/2605.19270#bib.bib5), 8 (https://arxiv.org/html/2605.19270#bib.bib6), 37 (https://arxiv.org/html/2605.19270#bib.bib7)]。这令人担忧,因为这些部署在现实世界中的模型可能直接误导人类的决策[39 (https://arxiv.org/html/2605.19270#bib.bib36), 1 (https://arxiv.org/html/2605.19270#bib.bib37)]。检测和审计LLM的欺骗是一个新兴但非平凡的挑战,因为策略性扭曲贯穿于原本准确且流畅的文本之中。

最常用的方法是LLM-as-judge[21 (https://arxiv.org/html/2605.19270#bib.bib5)],即提示一个前沿模型将回应分类为欺骗性或真实。虽然部署简单,但这种整体性、粗粒度的判断无法精确定位哪些事实被扭曲,或是在哪个沟通轴上被扭曲。然而,这种粒度正是理解模型*如何*欺骗以及为人工监督提供可操作证据所需要的。基于线性探针[16 (https://arxiv.org/html/2605.19270#bib.bib48)]或激活分析[6 (https://arxiv.org/html/2605.19270#bib.bib43), 45 (https://arxiv.org/html/2605.19270#bib.bib47)]的白盒方法可以检测到欺骗发生,但需要访问模型内部,限制了其在主流专有系统上的适用性。此外,基于意图的方法面临更根本的障碍:在黑盒设置中,衡量模型是否明知故犯地选择欺骗仍然是一个开放问题[5 (https://arxiv.org/html/2605.19270#bib.bib51)],即使解决了,也只能告诉我们模型意图欺骗,而无法揭示其采用的何种信息策略。

我们采取不同的方法。我们不寻找不可观察的意图,也不依赖整体的二元判断,而是审计信息操控这一可观察过程,考察输入上下文中的事实在模型回应中如何被管理、省略或扭曲。为了形式化这种审计,我们借鉴了人类传播学中的信息操控理论(IMT)[27 (https://arxiv.org/html/2605.19270#bib.bib2)]。IMT认为,欺骗并非通过捏造实现,而是通过在以下四个维度上进行策略性违反实现的:关键信息是否被省略或埋没(量);事实是否被捏造或扭曲(质);焦点是否被转移以避开相关话题(关联);以及含义是否通过模糊措辞、术语或歧义被掩盖(方式)。该框架在分析人类欺骗方面已被广泛验证[26 (https://arxiv.org/html/2605.19270#bib.bib3), 50 (https://arxiv.org/html/2605.19270#bib.bib52)],但这一重要联系尚未与LLM欺骗建立起来。

我们提出Decor,一个多智能体框架,将IMT操作化,用于对LLM回应中的策略性欺骗进行细粒度审计。如图1 (https://arxiv.org/html/2605.19270#S1.F1)所示,Decor将检测任务分解为三个协作阶段,每个阶段由专门的智能体处理。首先,一个*单元构建智能体*将输入上下文分解为原子信息单元,每个单元携带一条可验证信息,并为每个单元分配一个策略影响权重,以量化其对任务的相对重要性。然后,一个*IMT审计智能体*审计每个单元在模型的回应中如何呈现所有四个IMT维度,生成一个操控配置文件,捕捉每个原子单元的扭曲类型和严重程度。最后,Decor将每个单元的操控配置文件与策略影响权重聚合,得到全局欺骗指数。这种多智能体设计完全在文本上运行——无需访问模型内部——但提供了关于欺骗如何发生的细粒度、维度级别的诊断,弥合了白盒方法的可解释性与黑盒方法的可访问性。

参见图注

图1:Decor概览。给定一个与任务相关的上下文和一个模型回应,Decor分三个阶段进行:(1) 单元构建智能体将上下文分解为原子信息单元,并为每个单元分配策略影响权重;(2) IMT审计智能体在四个操控维度上对每个单元进行评分;(3) 最终将生成的操控配置文件与影响权重聚合,得到全局欺骗指数。

我们在DeceptionBench[21 (https://arxiv.org/html/2605.19270#bib.bib5)](一个涵盖五个真实世界领域的单轮基准)和OpenDeception[46 (https://arxiv.org/html/2605.19270#bib.bib28)](一个高风险的交互式多轮基准)上广泛评估了Decor。Decor在两个基准上都达到了最先进性能,超过了最新的黑盒基线,如CoT Red-Handed[5 (https://arxiv.org/html/2605.19270#bib.bib51)]和Constitutional Monitor[40 (https://arxiv.org/html/2605.19270#bib.bib54)]。值得注意的是,Decor的方法论可有效迁移到审计思考过程,而基线在此性能大幅下降。该框架可泛化至15个前沿模型,涵盖专有系列(例如GPT-5.4、Claude Opus 4.7、Gemini 3.1 Pro)和开放权重系列(例如DeepSeek-V3.2、Qwen3-235B),消融研究证实了原子分解和四维IMT审计均有贡献。定性案例研究进一步表明,Decor通过分配带有清晰文本证据的IMT分数,提供了可解释的审计,确保了欺骗检测的可靠性和透明度。我们将贡献总结如下:

1.  我们将LLM欺骗检测重新定义为基于信息操控理论的可测量的信息操控审计,将关注点从不可观察的意图转移到可观察的信息扭曲。
2.  我们引入了Decor,这是第一个将模型回应分解为原子单元并在四个沟通维度上审计每个单元的框架,提供了关于欺骗如何发生的细粒度诊断。
3.  我们在单轮和多轮欺骗检测数据集上的实验表明,Decor优于传统的黑盒方法,在单轮和多轮欺骗检测上均达到了*最先进*的性能。

## 2 相关工作

#### LLM欺骗评估。
越来越多的研究调查了LLMs的欺骗能力[41 (https://arxiv.org/html/2605.19270#bib.bib31), 46 (https://arxiv.org/html/2605.19270#bib.bib28), 20 (https://arxiv.org/html/2605.19270#bib.bib44), 24 (https://arxiv.org/html/2605.19270#bib.bib41)]。现有的基准评估了模型在不同社会领域[21 (https://arxiv.org/html/2605.19270#bib.bib5), 9 (https://arxiv.org/html/2605.19270#bib.bib38)]、社会决策游戏[36 (https://arxiv.org/html/2605.19270#bib.bib39)]以及旨在误导用户的欺骗性暗模式[22 (https://arxiv.org/html/2605.19270#bib.bib40)]中的不诚实行为。除了显式提示,最新研究还揭示了自发的欺骗行为,即模型执行对齐伪造以保留内部偏好[19 (https://arxiv.org/html/2605.19270#bib.bib30)],或为最大化理性自利而自发欺骗[47 (https://arxiv.org/html/2605.19270#bib.bib42), 42 (https://arxiv.org/html/2605.19270#bib.bib35)]。在更自主的设置中的评估进一步表明,模型可能诉诸秘密破坏或内部威胁以实现未对齐的目标或避免被替换[28 (https://arxiv.org/html/2605.19270#bib.bib34), 25 (https://arxiv.org/html/2605.19270#bib.bib33)]。此类欺骗行为往往演变为秘密勾结,并在扩展任务序列中策略性操控信任以逃避监督[30 (https://arxiv.org/html/2605.19270#bib.bib32), 49 (https://arxiv.org/html/2605.19270#bib.bib27)]。虽然这些研究令人信服地证明了LLMs会欺骗[8 (https://arxiv.org/html/2605.19270#bib.bib6), 37 (https://arxiv.org/html/2605.19270#bib.bib7), 1 (https://arxiv.org/html/2605.19270#bib.bib37), 39 (https://arxiv.org/html/2605.19270#bib.bib36)],但它们很少提供对基础信息机制的细粒度描述。我们通过将欺骗性回应分解为具体的信息扭曲,揭示模型如何将真实事实转化为误导性信息,从而填补了这一空白。

#### LLM欺骗检测。
LLM欺骗检测的方法大致分为黑盒方法和白盒方法。(1) *黑盒方法*将检测视为外部观察挑战。最常用的方法是LLM-as-judge,即提示一个前沿模型基于整体印象将回应分类为欺骗性或真实[21 (https://arxiv.org/html/2605.19270#bib.bib5)]。更复杂的变体采用对抗性行为探测,通过交叉询问来揭示矛盾[10 (https://arxiv.org/html/2605.19270#bib.bib55)],或通过回应不相关的后续问题来识别撒谎模式[35 (https://arxiv.org/html/2605.19270#bib.bib57)]。其他框架使用次级模型来审计思维链痕迹,以发现误导性的合理化[38 (https://arxiv.org/html/2605.19270#bib.bib50), 40 (https://arxiv.org/html/2605.19270#bib.bib54), 5 (https://arxiv.org/html/2605.19270#bib.bib51)]。(2) *白盒方法*则分析模型内部。先前的工作表明,潜在表示编码了比生成文本表面更多的事实知识[15 (https://arxiv.org/html/2605.19270#bib.bib45)],从而可以使用分类器[6 (https://arxiv.org/html/2605.19270#bib.bib43)]或线性探针[16 (https://arxiv.org/html/2605.19270#bib.bib48)]从隐藏激活中解码真实性。机制可解释性进一步实现了因果级别的检测和控制。具体来说,研究人员使用logit lens分析[20 (https://arxiv.org/html/2605.19270#bib.bib44), 11 (https://arxiv.org/html/2605.19270#bib.bib46)]、稀疏自编码器特征提取[11 (https://arxiv.org/html/2605.19270#bib.bib46)]或线性人工断层扫描[45 (https://arxiv.org/html/2605.19270#bib.bib47)]来定位特定的撒谎回路。然而,白盒技术需要访问模型内部,使其不适用于专有系统。我们的框架Decor仅基于文本运行,却提供了对信息操控的细粒度诊断,弥合了白盒方法的可解释性与黑盒方法的可访问性。

## 3 方法论

我们提出了一个基于信息操控理论(IMT)[27 (https://arxiv.org/html/2605.19270#bib.bib2)]来量化和检测策略性欺骗的框架。IMT认为,人类的欺骗很少涉及公然的捏造,而是通过策略性地操控原本真实的信息来构建。这一见解在分析人类话语方面已被证明非常有效[26 (https://arxiv.org/html/2605.19270#bib.bib3), 50 (https://arxiv.org/html/2605.19270#bib.bib52)],但尚未被应用于LLM欺骗检测。我们认为这种联系是自然的:当LLM产生策略性误导的回应时,它正是通过IMT设计要表征的相同信息操作(*例如*,提供过少信息、转移到无关话题或通过模糊语言掩盖含义)来实现的。

我们的框架Decor通过三个阶段实现这一思想:首先,*影响加权单元构建*阶段将输入上下文分解为细粒度的原子单元,并为每个单元分配一个策略影响权重。其次,*信息操控审计*阶段在IMT的四个维度上审计每个单元,生成操控配置文件。最后,*欺骗预测*阶段将操控配置文件与策略影响权重聚合,形成全局欺骗指数。完整的流程如图1 (https://arxiv.org/html/2605.19270#S1.F1)所示。

### 3.1 影响加权单元构建

给定一个输入提示X\mathcal{X},由任务T\mathcal{T}和任务相关上下文C\mathcal{C}组成,以及一个基于X\mathcal{X}的模型回应R\mathcal{R},Decor首先识别出哪些信息是可获得的且具有影响力,可能被操控。为此,Decor构建了一个*单元构建智能体*,首先将上下文分解为细粒度的原子单元,然后为每个单元分配一个策略影响权重,以量化其对任务的相对重要性。

具体来说,给定输入上下文C\mathcal{C},该智能体生成一组带权重的单元{(u1,w1),(u2,w2),...,(un,wn)}\{(u_{1},w_{1}),(u_{2},w_{2}),\dots,(u_{n},w_{n})\},其中uiu_{i}和wiw_{i}的定义如下。

#### 上下文分解。
给定输入上下文C\mathcal{C},单元构建智能体应用函数φ\phi将其分解为一组原子单元:U=φ(C)={u1,u2,...,un},\mathcal{U}=\phi(\mathcal{C})=\{u_{1},u_{2},\ldots,u_{n}\},

相似文章