TrustLDM：语言扩散模型可信度基准测试

arXiv cs.CL 2026/06/02 04:00 论文

trustworthiness benchmark language-diffusion-models safety privacy fairness alignment

摘要

介绍TrustLDM，一个全面评估语言扩散模型安全性、隐私性和公平性的基准测试，揭示其对齐行为在恶意后上下文环境下会退化。提出自动评估框架TrustLDM-Auto，用于识别脆弱配置。

arXiv:2606.00023v1 公告类型：新摘要：语言扩散模型（LDMs）的快速发展挑战了自回归模型在语言处理中的主导地位。然而，其灵活的任意顺序解码策略不仅实现了快速解码速度，还可能带来新的可信度挑战。为了更好地理解其流程背后的风险，我们引入了一个针对语言扩散模型（TrustLDM）的全面可信度基准测试，评估不同LDM架构在多个静态后上下文类别下的安全性、隐私性和公平性。我们的实验结果表明，虽然仅使用用户提示时，LDM通常表现出较强的可信度，但当恶意后上下文附加到掩码响应时，其对齐行为明显退化。我们进一步观察到，较长的上下文不一定会产生更强的影响，解码顺序和生成长度都会影响评估结果。最后，我们提出了TrustLDM-Auto，一个自动评估框架，利用LDM解码灵活性系统性地识别脆弱配置，揭示了所有评估模型和维度上的显著可信度弱点。我们的工作可能有助于社区构建更可信的LDM。我们的代码可在https://github.com/PKU-ML/TrustLDM获取。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:35

# TrustLDM：语言扩散模型可信度基准测试 来源：https://arxiv.org/html/2606.00023 Yichuan Mo1†Yukun Jiang2∗Yanbo Shi3∗Mingjie Li2∗&Michael Backes2Yang Zhang2Yisen Wang1,4 1北京大学通用人工智能国家重点实验室 2CISPA亥姆霍兹信息安全中心 3北京大学电子工程与计算机科学学院 4北京大学人工智能研究院 ###### 摘要 语言扩散模型(LDM)的快速发展正在挑战自回归模型在语言处理领域的主导地位。然而，其灵活、任意顺序的解码策略不仅实现了快速解码，也可能带来新的可信度挑战。为了更好地理解其流程背后的风险，我们提出了一个专门针对LDM的综合可信度基准测试(TrustLDM)，评估不同LDM架构在多种静态后文语境类别下的安全性、隐私性和公平性。我们的实验结果表明，虽然LDM在仅包含用户提示时通常表现出较强的可信度，但当恶意后文语境附加到掩码响应上时，其对齐行为会显著下降。我们进一步观察到，较长的语境并不一定产生更强的效果，解码顺序和生成长度都会影响评估结果。最后，我们提出了TrustLDM-Auto，一个利用LDM解码灵活性自动识别脆弱配置的评估框架，揭示了所有被评估模型和维度中存在的显著可信度弱点。我们的工作可能有助于社区构建更可信的LDM。我们的代码可在https://github.com/PKU-ML/TrustLDM获取。 ## 1 引言 扩散模型(Ho等人，2020 (https://arxiv.org/html/2606.00023#bib.bib2352); Rombach等人，2022 (https://arxiv.org/html/2606.00023#bib.bib2353); Karras等人，2022 (https://arxiv.org/html/2606.00023#bib.bib2354); Dhariwal和Nichol，2021 (https://arxiv.org/html/2606.00023#bib.bib6))已被广泛应用于广泛的视觉任务，包括图像生成(Baldridge等人，2024 (https://arxiv.org/html/2606.00023#bib.bib2356); Esser等人，2024 (https://arxiv.org/html/2606.00023#bib.bib2361); Betker等人，2023 (https://arxiv.org/html/2606.00023#bib.bib2362))、视频合成(Esser等人，2023 (https://arxiv.org/html/2606.00023#bib.bib2357); Zhang等人，2023 (https://arxiv.org/html/2606.00023#bib.bib2358); Blattmann等人，2023 (https://arxiv.org/html/2606.00023#bib.bib2360); Ho等人，2022 (https://arxiv.org/html/2606.00023#bib.bib2359); Brooks等人，2024 (https://arxiv.org/html/2606.00023#bib.bib2365))以及许多其他应用(Nie等人，2022 (https://arxiv.org/html/2606.00023#bib.bib2363); Hu和Chang，2024 (https://arxiv.org/html/2606.00023#bib.bib2364); Hsu等人，2024 (https://arxiv.org/html/2606.00023#bib.bib7); Chen等人，2023 (https://arxiv.org/html/2606.00023#bib.bib8))。最近，基于扩散的方法也已成为自然语言处理中自回归架构的有竞争力的替代方案(Nie等人，2025 (https://arxiv.org/html/2606.00023#bib.bib10); Zhu等人，2025a (https://arxiv.org/html/2606.00023#bib.bib9); Ye等人，2025 (https://arxiv.org/html/2606.00023#bib.bib31); Gong等人，2024b (https://arxiv.org/html/2606.00023#bib.bib32); Zhu等人，2025b (https://arxiv.org/html/2606.00023#bib.bib33))。与依赖固定从左到右生成流程的大型语言模型(LLM)不同，语言扩散模型(LDM)通过迭代去噪和细化并行解码所有令牌(Mo等人，2025 (https://arxiv.org/html/2606.00023#bib.bib2400); Hong等人，2025 (https://arxiv.org/html/2606.00023#bib.bib2401))。这种设计实现了固有的并行性——LDM可以同时生成整个文本块，提供了解码效率提升的潜力。此外，其任意解码顺序的灵活性使LDM能够应用于多样化的场景，例如填充表格单元格中的任意跨度或完成代码块中的内容。

然而，LDM解码的灵活性是一把双刃剑。大多数现有的对齐技术都是针对自回归模型设计的，其生成严格遵循从左到右的顺序，早期令牌是安全控制的主要焦点(Qi等人，2025 (https://arxiv.org/html/2606.00023#bib.bib2351))。相比之下，LDM的无序或动态调度解码过程违反了这一假设，可能暴露出新的脆弱性。此外，动态生成位置带来了超出传统设置的挑战：LDM不仅需要考虑前文内容带来的风险，还需要考虑未来（后文）内容（如长形式生成中的后续片段）所引发的含义。尽管存在这些独特挑战，几乎所有现有的安全性和可信度基准测试(Wang等人，2023 (https://arxiv.org/html/2606.00023#bib.bib2074); Huang等人，2024 (https://arxiv.org/html/2606.00023#bib.bib2396))都是为自回归模型设计的。这一差距使得关键风险未被检查，可能阻碍LDM的更广泛部署。

为了系统性地解决这些风险，我们提出了首个专为LDM设计的综合可信度基准测试，涵盖三个主要维度：安全性、隐私性和公平性。该基准测试涵盖了六种代表性解码顺序、四种LDM架构和六类静态语境，以评估它们对可信度的影响。我们的结果显示，在不添加语境的情况下，模型表现出高可信度。然而，恶意语境会显著降低LDM的对齐性。此外，由于模型容量限制，较长的语境并不一定对可信度产生更强的影响。解码顺序和生成长度都会影响最终的评估结果。

除了静态语境，我们还引入了一个自动化评估流程TrustLDM-Auto，它构建模型特定的语境以揭示独特的脆弱性。利用LDM解码的灵活性，TrustLDM-Auto执行分层搜索，高效识别易被利用的解码设置，同时逐步缩小搜索空间以实现聚焦的目标探索。在所有模型和评估维度上，TrustLDM-Auto实现了近乎完美的攻击性能，突显了LDM在自动化评估下的显著脆弱性。

我们的贡献总结如下：
- • 我们提出了TrustLDM，这是首个专门评估LDM可信度的全面基准测试。
- • 我们的分析发现，灵活的令牌排序和动态生成长度为LDM带来了独特的可信度挑战，而这些被现有基准测试所忽略。
- • 我们开发了TrustLDM-Auto，一个专为LDM量身定制的自动评估框架，能够生成对抗性的、模型特定的语境，以充分暴露LDM参数背后的脆弱性。

参见标题图1：我们提出的TrustLDM基准测试概览。利用LDM的可编辑语境特性，TrustLDM构建恶意语境——无论是静态的还是通过动态优化——以引发不可信行为。

## 2 相关工作

### 2.1 语言扩散模型

作为最成功的生成方法之一，我们见证了扩散模型在视觉领域的显著成功(Baldridge等人，2024 (https://arxiv.org/html/2606.00023#bib.bib2356); Esser等人，2024 (https://arxiv.org/html/2606.00023#bib.bib2361); Betker等人，2023 (https://arxiv.org/html/2606.00023#bib.bib2362))。相比之下，语言扩散模型(LDM)长期以来一直难以跟上自回归竞争对手的步伐(Achiam等人，2023 (https://arxiv.org/html/2606.00023#bib.bib2366); Hurst等人，2024b (https://arxiv.org/html/2606.00023#bib.bib2367); Grattafiori等人，2024 (https://arxiv.org/html/2606.00023#bib.bib2369))，归因于规模小和训练数据不足。作为开创性工作，LLaDA(Nie等人，2025 (https://arxiv.org/html/2606.00023#bib.bib10))首次从头训练了80亿规模的LDM，使用了数万亿的令牌。令人惊讶的是，他们观察到LDM与自回归模型之间的性能差距大大缩小。当配备强化学习(RL)(Wang等人，2025b (https://arxiv.org/html/2606.00023#bib.bib2375); Zhu等人，2025a (https://arxiv.org/html/2606.00023#bib.bib9))进行增强时，我们看到LDM在多个方面超越了传统语言模型，如数学推理(Zhao等人，2025 (https://arxiv.org/html/2606.00023#bib.bib2370))和代码生成(Xie等人，2025 (https://arxiv.org/html/2606.00023#bib.bib2371))。

除了性能优势，LDM还拥有另外两个优势。一方面，其灵活的解码顺序实现了显著更快的速度(Khanna等人，2025 (https://arxiv.org/html/2606.00023#bib.bib2379); DeepMind，2025 (https://arxiv.org/html/2606.00023#bib.bib2383))。另一方面，其双向注意力机制防止了反向曲线问题(Berglund等人，2024 (https://arxiv.org/html/2606.00023#bib.bib2380))，使LDM特别适合文本补全任务。这些优势推动了LDM在关键场景中的广泛应用，如分子生成(Xiong等人，2025 (https://arxiv.org/html/2606.00023#bib.bib2374); Gong等人，2024a (https://arxiv.org/html/2606.00023#bib.bib2372))、蛋白质设计(Wang等人，2024 (https://arxiv.org/html/2606.00023#bib.bib2373); Yin等人，2025 (https://arxiv.org/html/2606.00023#bib.bib2377))和多模态理解(You等人，2025 (https://arxiv.org/html/2606.00023#bib.bib2381); Li等人，2025b (https://arxiv.org/html/2606.00023#bib.bib24))。

随着它们的广泛应用，LDM的可信度已成为一个关键问题。此外，LDM的独特特性可能引入现有以自回归为重点的评估未能捕捉到的风险。为了解决这个问题，我们开发了首个基准测试，旨在根据LDM的独特特征评估其可信度。

### 2.2 可信评估基准测试

随着大型语言模型(LLM)的快速发展，它们已从研究原型走向实际应用。尽管性能强大，但可信度已成为一个关键问题，加速了基准测试的发展，这些基准测试要么是专门的，要么是广泛的。专门基准测试深入评估LLM可信度的单一维度，如安全性(Mazeika等人，2024 (https://arxiv.org/html/2606.00023#bib.bib2385); Chao等人，2024a (https://arxiv.org/html/2606.00023#bib.bib2386); Luo等人，2024 (https://arxiv.org/html/2606.00023#bib.bib2387); Chu等人，2025 (https://arxiv.org/html/2606.00023#bib.bib2407); Li等人，2025a (https://arxiv.org/html/2606.00023#bib.bib2350))、隐私性(Li等人，2024b (https://arxiv.org/html/2606.00023#bib.bib2388); Sun等人，2025 (https://arxiv.org/html/2606.00023#bib.bib2389); Li等人，2024a (https://arxiv.org/html/2606.00023#bib.bib2390); Akkus等人，2025 (https://arxiv.org/html/2606.00023#bib.bib2349))和公平性(Chan和Wong，2024 (https://arxiv.org/html/2606.00023#bib.bib2391); Jung等人，2025 (https://arxiv.org/html/2606.00023#bib.bib2392); Wang等人，2025a (https://arxiv.org/html/2606.00023#bib.bib2393))。相比之下，广泛基准测试同时评估多个方面以揭示一般模式，旨在提供完整的分析。例如，DecodingTrust(Wang等人，2023 (https://arxiv.org/html/2606.00023#bib.bib2074))评估了GPT模型在八个子任务上的表现，而Mo等人(2024 (https://arxiv.org/html/2606.00023#bib.bib2394))检查了开源模型的脆弱性，表明更强的通用能力并不一定意味着更高的可信度。TrustLLM(Huang等人，2024 (https://arxiv.org/html/2606.00023#bib.bib2396))进一步提供了迄今为止最广泛的评估，涵盖了16个开源和闭源模型的六个维度。

尽管它们很全面，但需要注意的是，所有这些基准测试都是为自回归模型设计的。作为一种全新的语言模型，LDM使用的建模方法与自回归模型不同，可能带来其自身的独特风险。此外，现有的可信评估基准测试依赖于静态样本和评估策略，使其极易受到数据泄漏和排行榜操纵的影响。因此，在本文中，为了克服这些缺点，我们提出了TrustLDM，一个专为LDM设计的新基准测试。它不仅提供了用于快速评估的静态流程，还提供了一种基于修订的方法来模仿现实世界场景中的复杂威胁。

## 3 静态评估概述

#### 维度和数据集。与自回归模型不同，LDM对整个生成序列的条件概率进行建模，使其对插入的语境特别敏感(Zhang等人，2025 (https://arxiv.org/html/2606.00023#bib.bib2398); Wen等人，2025 (https://arxiv.org/html/2606.00023#bib.bib2397))。受此特性启发，我们提出了TrustLDM，一个旨在评估LDM在三个关键维度（安全性、隐私性和公平性）上可信度的基准测试。对于安全性，我们从两个广泛使用的基准测试AdvBench(Zou等人，2023 (https://arxiv.org/html/2606.00023#bib.bib2109); Chao等人，2023 (https://arxiv.org/html/2606.00023#bib.bib2146))和JailbreakBench (JBB)(Chao等人，2024b (https://arxiv.org/html/2606.00023#bib.bib43))构建有害提示，分别称为TrustLDM-Adv和TrustLDM-JBB。TrustLDM-Adv包含50个有害问题的子集，而TrustLDM-JBB包含JBB中的所有滥用行为。对于隐私性，我们从(Mireshghallah等人，2024 (https://arxiv.org/html/2606.00023#bib.bib2395))提出的数据集中构建了500个示例的数据集，命名为TrustLDM-PRI，其中LDM被模拟为数据库管理员，并通过用户提示查询以访问敏感隐私信息，从而评估它们对隐私约束的遵守情况。对于公平性，我们从UCI Adult数据集(Sena和Machado，2024 (https://arxiv.org/html/2606.00023#bib.bib2406))中采样了200个性别平衡的实例，称为TrustLDM-Fair，并提示LDM预测个人的年收入是否超过50,000美元；通过分析失败案例的分布，我们揭示了性别组之间的性能差距，作为公平性的指标。图1 (https://arxiv.org/html/2606.00023#S1.F1)展示了TrustLDM的整体流程，每个数据集的示例案例见附录B (https://arxiv.org/html/2606.00023#A2)。

模型和超参数。我们评估了四个代表性的LDM：LLaDA(Nie等人，2025 (https://arxiv.org/html/2606.00023#bib.bib10))、LLaDA-1.5(Zhu等人，2025a (https://arxiv.org/html/2606.00023#bib.bib9))、LLaDA-MoE(Zhu等人，2025b (https://arxiv.org/html/2606.00023#bib.bib33))和Dream(Ye等人，2025 (https://arxiv.org/html/2606.00023#bib.bib31))。LLaDA和LLaDA-MoE是从头训练的，而LLaDA-1.5通过强化学习增强了LLaDA，Dream是从自回归骨干网络改编而来。为确保可重复性，所有实验的温度固定为0.0。除非另有说明，我们报告生成长度为256、步长为256、块大小为64的结果。我们在所有模型的指令版本上进行实验。

因素和变体。将语境po

TrustLDM：语言扩散模型可信度基准测试

相似文章

扩散语言模型：实验分析

大语言模型红队测试框架：以忠实性评估为例

大型音频语言模型综述：泛化、可信度与展望

大语言模型可信性无训练方法的系统研究

一个用于医学大语言模型安全性、鲁棒性和公平性评估的多领域红队框架

提交意见反馈