当大语言模型学会持续犯错：合成欺骗线性表示的多模型研究

arXiv cs.LG 2026/06/01 04:00 论文

deception linear-representations ai-safety fine-tuning multi-model synthetic-dishonesty

摘要

本文通过微调五个Transformer模型的诚实与欺骗变体，研究大语言模型中的合成不诚实行为，发现鲁棒且域不变的不诚实表示可以通过适度的监督微调迅速固化，这对基于激活的监控具有重要意义。

arXiv:2605.30381v1 公告类型：新摘要：欺骗性对齐——模型在保持准确内部表示的同时故意产生错误输出——仍然是人工智能安全的核心挑战。虽然战略性欺骗是主要的长期关注点，但合成不诚实——通过对错误答案的直接优化诱导——为研究习得欺骗的表示基础提供了受控试验台。我们引入了一个多模型范式，在该范式中，五个Transformer模型（Pythia-1.4B、Gemma-2-2B/9B、Qwen2.5-7B、Llama-3.1-8B）的诚实与欺骗变体使用LoRA在相同的问题分布上进行微调。基于平均池化隐藏状态训练的线性探针能够在四个架构的第1-3层就以近乎完美的AUC（≥0.99）检测合成不诚实，而Pythia-1.4B达到峰值0.705。逻辑回归探针始终匹配或优于MLP探针，支持线性表示假说。在TruthfulQA上训练的探针以近乎零损失（Delta AUC约0）泛化到未见的MMLU科目。深层表示对高斯噪声表现出强鲁棒性，其中Gemma-2模型展现出异常的稳定性。对费舍尔判别比、有效秩、质心几何、方向稳定性、跨域对齐和校准（ECE）的机制分析揭示了两种状态：Pythia/Llama/Qwen中的表示崩溃与Gemma-2中的高维保持。在所有模型中，不诚实方向在更深层逐渐巩固，最优校准（除Pythia外ECE<0.01）可在第1-4层实现。这些结果表明，鲁棒且域不变的不诚实表示可以通过适度的监督微调迅速固化，这对基于激活的监控具有重要意义。

查看原文

查看缓存全文

缓存时间: 2026/06/01 09:22

# 当大语言模型学会持续犯错：多模型框架下合成欺骗的线性表征研究
来源：https://arxiv.org/abs/2605.30381
查看PDF (https://arxiv.org/pdf/2605.30381)

> **摘要：**欺骗性对齐——模型在保持精确内部表征的同时故意输出错误结果——仍是AI安全领域的核心挑战。尽管策略性欺骗是长期的主要关注点，但通过针对错误答案的直接优化诱导出的合成不诚实行为，为研究学习型欺骗的表征基础提供了受控实验平台。我们提出一种多模型范式，对五个Transformer模型（Pythia-1.4B、Gemma-2-2B/9B、Qwen2.5-7B、Llama-3.1-8B）的诚实变体与欺骗变体，使用LoRA在相同问题分布上进行微调。基于平均池化隐藏状态训练的线性探针，在四个架构中最早于第1-3层即能以近乎完美的AUC（≥0.99）检测合成不诚实，而Pythia-1.4B的峰值仅为0.705。逻辑回归探针的性能始终匹配或优于MLP探针，支持线性表征假说。在TruthfulQA上训练的探针能以近乎零损失（Delta AUC≈0）泛化至留出的MMLU学科。深层表征对高斯噪声展现出强鲁棒性，其中Gemma-2模型呈现出卓越稳定性。基于Fisher判别比、有效秩、质心几何、方向稳定性、跨域对齐及校准（ECE）的机制分析揭示了两种状态：Pythia/Llama/Qwen的表示坍塌，以及Gemma-2的高维保持。在所有模型中，欺骗方向在更深层逐步固化，且在1-4层可实现最优校准（除Pythia外ECE<0.01）。这些结果表明，通过适度的监督微调，鲁棒且域不变的欺骗表征能迅速根深蒂固，对基于激活的监控具有重要启示。

## 提交历史

来自：Vahideh Zolfaghari [查看电子邮件 (https://arxiv.org/show-email/ad764d61/2605.30381)] **[v1]** 2026年5月28日星期四 01:20:06 UTC (4,181 KB)

当大语言模型学会持续犯错：合成欺骗线性表示的多模型研究

相似文章

超越 Liars' Bench：谎言类型、深度和稀疏性对LLM欺骗检测的影响

大语言模型中欺骗探测探头的压力测试：可伸缩性、鲁棒性与欺骗表征的几何特性

DECOR：基于信息操纵理论审计LLM欺骗行为

评估 LLM 在受控实验中作为人类代理的可靠性

ThinkDeception: 一种可解释的多模态欺骗检测的渐进式强化学习框架

提交意见反馈