DiffScore：超越自回归似然性的文本评估

arXiv cs.CL 2026/05/13 04:00 论文

摘要

本文介绍了 DiffScore，这是一个基于掩码大型扩散语言模型（Masked Large Diffusion Language Models）的文本评估框架，通过利用掩码重建来解决自回归评分中的位置偏差问题。

arXiv:2605.11601v1 公告类型：新发布摘要：自回归语言模型被广泛用于文本评估，然而，其从左到右的分解方式引入了位置偏差，即早期的词元仅依据左侧上下文进行评分，导致架构不对称性与真实文本质量混淆。我们提出以掩码重建作为替代范式，其中每个词元均利用完整的双向上下文进行评分。我们引入了 DiffScore，这是一个建立在掩码大型扩散语言模型之上的评估框架。通过衡量在不同连续掩码率下的文本可恢复性，DiffScore 消除了位置偏差，并自然地建立了从局部流畅性到全局连贯性的评估层级。我们还提供了自回归框架所不具备的诊断工具：多时间步质量配置文件，该文件将分数按掩码率分解；以及双向 PMI（互点互信息）分解，用于分离流畅性与忠实度。在十个基准测试上的实验表明，DiffScore 在零样本和微调设置中均一致优于自回归基线。代码已发布在：https://github.com/wenlai-lavine/DiffScore。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/13 06:15

# 超越自回归似然的文本评估

**来源**: https://arxiv.org/html/2605.11601

**作者**: Wen Lai¹, Yingli Shen²*, Dingnan Jin¹, Qing Cui¹, Jun Zhou¹, Maosong Sun², Alexander Fraser³

**机构**: ¹蚂蚁集团 ²清华大学 ³慕尼黑工业大学

**邮箱**: [email protected], [email protected]

###### 摘要

自回归语言模型被广泛用于文本评估，然而其从左到右的分解方式引入了位置偏差，即早期 token 仅基于左侧上下文进行评分，从而将架构不对称性与真实的文本质量混淆。我们提出*掩码重建（masked reconstruction）*作为一种替代范式，其中每个 token 都使用完整的双向上下文进行评分。我们引入了 **DiffScore**，这是一个建立在掩码大扩散语言模型（Masked Large Diffusion Language Models）之上的评估框架。通过测量在不同连续掩码率下的文本可恢复性，**DiffScore** 消除了位置偏差，并自然地建立了一个从局部流畅性到全局连贯性的评估层级。我们还提供了自回归框架所不具备的诊断工具：*多时间步质量剖面（multi-timestep quality profiles）*，用于跨掩码率分解分数；以及*双向 PMI 分解（bidirectional PMI decomposition）*，用于解耦流畅性与忠实度。在十个基准上的实验表明，**DiffScore** 在零样本和微调设置下均一致优于自回归基线。代码已发布在：https://github.com/wenlai-lavine/DiffScore。

> **图 1**: **DiffScore** 在 10 个多样化的评估基准上始终优于所有基线方法。

## 1 引言

评估自然语言生成（NLG）仍然具有挑战性，这是因为语义等价的输出之间存在巨大的词汇差异 [clark-etal-2021-thats](https://arxiv.org/html/2605.11601#bib.bib1); [gehrmann2023repairing](https://arxiv.org/html/2605.11601#bib.bib2)。评估方法已从 n-gram 重叠度（BLEU [papineni-etal-2002-bleu](https://arxiv.org/html/2605.11601#bib.bib3), ROUGE [lin-2004-rouge](https://arxiv.org/html/2605.11601#bib.bib4)）和语义匹配（BERTScore [Zhang*2020BERTScore:](https://arxiv.org/html/2605.11601#bib.bib5), MoverScore [zhao-etal-2019-moverscore](https://arxiv.org/html/2605.11601#bib.bib6)）发展到生成式评分（BARTScore [yuan2021bartscore](https://arxiv.org/html/2605.11601#bib.bib7), GPTScore [fu-etal-2024-gptscore](https://arxiv.org/html/2605.11601#bib.bib8)）以及 LLM-as-Judge 方法（G-Eval [liu-etal-2023-g](https://arxiv.org/html/2605.11601#bib.bib9)）。其中，通过条件对数似然 $\sum_n \log p(x_n | x_{<n})$ 进行的自回归（AR）评分...

> *[注：原文此处截断，以下为恢复后的主要章节内容]*

... $p(x_n | x_{<n})$ 进行评分。然而，这种单向建模方式导致早期 token 缺乏足够的上下文，从而引入位置偏差。我们提出的 **DiffScore** 通过掩码重建机制解决了这一问题，利用双向上下文为每个 token 提供公平评分。

## ... [中间章节省略] ...

## 附录 K PMI 分解：扩展分析

### K.1 对抗性测试集构建

PMI 分解实验（§6.2 [https://arxiv.org/html/2605.11601#S6.SS2](https://arxiv.org/html/2605.11601#S6.SS2)）使用了从 SummEval 构建的两个对抗性扰动条件。我们在此详细说明构建过程。

#### 流畅但不相关候选项（Fluent-irrelevant candidates）

对于 SummEval 中的每个源文档，我们用从*不同* SummEval 源文档中随机采样的高质量摘要替换原始候选摘要。这产生了内在流畅且结构良好（高边际分数）但与主题无关的候选项（低条件增益，因此低 PMI）。

> **示例**:
>
> **源文档**: (CNN) Donald Sterling 的种族主义言论去年让他失去了一支 NBA 球队。但现在是他前女性伴侣遭受重大损失...
>
> **原始摘要**: V. Stiviano 必须偿还 Donald Sterling 赠送的 260 万美元礼物...
>
> **流畅但不相关**: Harry Kane 本赛季为 Tottenham 表现出色。这位 21 岁的球员在所有比赛中为 Spurs 打进 30 球...

#### 不流畅但相关候选项（Disfluent-relevant candidates）

对于每个源文档，我们对原始摘要应用受控扰动以降低流畅性，同时保持主题相关性。扰动包括：(i) 从句内的词序交换，(ii) 冠词/介词替换，(iii) 词语重复，以及 (iv) 轻微删除。

> **示例**:
>
> **原始**: V. Stiviano 必须偿还 Donald Sterling 赠送的 260 万美元礼物。
>
> **不流畅但相关**: V. must Stiviano pay back $2.6 million on gift from Donald Sterling.

### K.2 详细的 PMI 分解结果

表 15 [https://arxiv.org/html/2605.11601#A11.T15](https://arxiv.org/html/2605.11601#A11.T15) 扩展了正文中的表 4 [https://arxiv.org/html/2605.11601#S6.T4](https://arxiv.org/html/2605.11601#S6.T4)，增加了标准差和统计检验细节，提供了分解可靠性的更完整图景。

**表 15**: 带有标准差的扩展 PMI 分解结果。所有成对差异在 $p<10^{-5}$ (Mann–Whitney U) 下均显著，除非标记为 †。

**关键观察**:
1. 对于流畅但不相关的候选项，边际分数与原始分数在统计上无显著差异 ($DiffScore$ $p=0.32$, $BARTScore$ $p=0.50$)，证实流畅性得以保留。
2. $DiffScore$ 的 PMI 下降更为显著（从 $+1.88$ 降至 $+0.11$，减少 $94.1\%$），相比之下 $BARTScore$ 从 $+2.61$ 降至 $-0.26$，表明分离更干净。
3. $DiffScore$ 在所有条件下实现了更紧的标准差（平均 Std 0.50 vs $BARTScore$ 0.55），增强了分解的统计可靠性。
4. 对于不流畅但相关的候选项，两种方法的 PMI 保留率都很高 ($+1.77$ 和 $+2.27$)，证实相关性信号对流度的退化具有鲁棒性。

## 附录 L 位置偏差：扩展分析

> **图 8**: 每个位置的 token 级别分数分布。$DiffScore$ 的平均位置标准差为 2.31，而 $BARTScore$ 为 5.61（降低 $2.4$ 倍）。

表 16 [https://arxiv.org/html/2605.11601#A12.T16](https://arxiv.org/html/2605.11601#A12.T16) 呈现了详细的位置偏差统计。变异系数（CoV）提供了一种归一化度量，考虑了两种方法之间绝对分数幅度的差异。

**表 16**: SummEval 上的位置偏差统计。较低的值表示更公平的位置评估。

平均位置标准差降低 $2.4$ 倍表明，双向掩码产生了实质性地更公平的位置评估。定性来看，$BARTScore$ 的每个位置分布显示出典型的“预热”模式，即早期 token（位置 1-5）由于左侧上下文贫乏而系统性地获得较低的分数。$DiffScore$ 的分布在各个位置上更加均匀，因为每个 token 无论其顺序位置如何，都在随机双边上下文中进行评估。

## 附录 M 方向一致性：扩展分析

> **图 9**: 200 个合成正向-反向对上的方向一致性。

### M.1 测试集构建

我们构建了 200 个合成序列对，其中正向和反向形式表达相同的事实内容，并在无偏评估器下应获得相同的质量分数。示例遵循以下模式：

> **正向**: “Daphne Barrington 撰写了《Shattered Light》”
> **反向**: “《Shattered Light》由 Daphne Barrington 撰写”

这些对涵盖多样化的关系（作者身份、发明、发现、创立），并使用虚构实体以避免记忆效应。

### M.2 详细结果

**表 17**: 200 个合成反转对上的方向一致性结果。

$DiffScore$ 在正向和反向分数之间的秩相关性提高了 76%（0.471 vs 0.267）。这表明对随机掩码模式进行边缘化产生了内在对称的评估基底，而自回归分解不可避免地引入了与反转诅咒（Reversal Curse）[10](https://arxiv.org/html/2605.11601#bib.bib10) 一致的方向性伪影。平均一致性分数（每对的最小/最大分数比率）在 $DiffScore$ 上也更高（0.885 vs 0.868），且方差更低（0.082 vs 0.091），表明更稳定的双向评估。

## 附录 N 跨架构泛化：Dream 结果

为了验证 $DiffScore$ 的优势源于掩码重建范式而非特定模型，我们在 Dream-7B [13](https://arxiv.org/html/2605.11601#bib.bib13) 上实例化该框架。表 18 [https://arxiv.org/html/2605.11601#A14.T18](https://arxiv.org/html/2605.11601#A14.T18) 报告了完整结果。

**表 18**: 使用 Dream-7B 进行跨架构评估。

| 方法 | WMT19 ($\tau$) Avg | Best pair | SummEval ($\rho$) Avg | Best dim |
| :--- | :--- | :--- | :--- | :--- |
| Dream-Zero | 0.051 | 0.206 (gu-en) | -0.144 | -0.144 |
| Dream-FT | 0.328 | 0.473 (zh-en) | 0.382 | 0.462 (CON) |
| BARTScore | 0.342 | 0.428 (zh-en) | 0.375 | 0.441 (COH) |
| DiffScore-FT (LLaDA) | 0.356 | 0.458 (zh-en) | 0.385 | 0.486 (CON) |

**关键发现**:
1. Dream-Zero 在所有任务中产生近乎随机的相关性，表明缺乏足够预训练规模和指令微调的基础 MDLLM 缺乏零样本评估所需的语言先验。
2. 微调后，Dream-FT 的性能完全释放，并取得了与 BARTScore 具有竞争力的结果，证实掩码重建目标提供了一种普遍有效的归纳偏置。
3. 基于 LLaDA 的 $DiffScore-FT$ 始终优于 Dream-FT，证明更强的预训练表示直接转化为更优越的评估能力。

这种跨架构验证很重要，原因有二。首先，它排除了 $DiffScore$ 的改进是由于 LLaDA 的特定架构或预训练数据而非掩码重建范式的possibility。其次，它表明随着 MDLLM 的持续改进，$DiffScore$ 将直接受益。

## 附录 O 案例研究：Token 级分析

我们展示了来自 SummEval 的详细案例研究，以通过 token 级分数分析说明 $DiffScore$ 的可解释性。

### O.1 高质量摘要

**表 19**: 高质量摘要的 Token 级分析（人工评分：COH=5.0, CON=5.0, FLU=5.0, REL=4.3）。

功能词和高频 token 获得较高的重建分数，反映了模型强大的语言建模先验。值得注意的是，源文档中直接提及的专有名词（“Holland,” “Tampa”）得分中等，表明源-候选对齐成功。标点符号 token 得分较低，因为其确切位置较难从上下文中预测。

### O.2 低质量摘要

**表 20**: 低质量摘要的 Token 级分析（人工评分：COH=1.0, CON=4.7, FLU=4.3, REL=2.3）。

低质量摘要表现出近乎随机的话语结构（多个句子缺乏逻辑流，结尾处有一个修辞性问题）。虽然每个句子内的单个 token 取得了合理的分数（与源高度一致），但转换 token 和话语标记得分很低，反映了较差的全局连贯性。对最终句号的极端惩罚（-11.03）表明模型认为问号后的突然结束可能性极低。

### O.3 诊断可视化

> **图 10**: 左：PMI 分解可视化，显示条件分数和边际分数如何针对不同质量级别分离。右：Token 级质量剖面热图，说明细粒度的质量模式。

$DiffScore$ 的诊断工具使得超越标量分数的细粒度分析成为可能。PMI 分解（图 10，左）直观地展示了不同质量层级下流畅性和相关性组件的分离，而质量剖面热图（图 10，右）揭示了哪些 token 在不同掩码率下最难重建，为 NLG 系统开发人员提供了可操作的诊断信息。

## 附录 P 掩码策略比较

> **图 11**: SummEval 上的掩码策略比较。均匀随机掩码显著优于结构化替代方案。

除了正文中的消融结果（表 5 [https://arxiv.org/html/2605.11601#S6.T5](https://arxiv.org/html/2605.11601#S6.T5)）外，图 11 [https://arxiv.org/html/2605.11601#A16.F11](https://arxiv.org/html/2605.11601#A16.F11) 可视化了不同掩码策略的各维度性能。表 21 [https://arxiv.org/html/2605.11601#A16.T21](https://arxiv.org/html/2605.11601#A16.T21) 提供了详细的数值比较。

**表 21**: SummEval 上的掩码策略比较（Spearman $\rho$）。均匀随机掩码在所有维度上均优于结构化替代方案。

均匀随机掩码在所有维度上都优于仅内容词掩码和仅实体掩码。这证实了全面覆盖所有类型的 token——包括功能词、标点符号和结构 token——对于可靠的质量评估至关重要。仅实体掩码表现最差，平均仅达到随机掩码性能的 51.5%，因为它忽略了流畅性和连贯性评估至关重要的语法和话语级信号。仅内容词掩码在一致性上表现中等（相对 99.0%），但在连贯性（72.5%）和相关性（65.9%）上表现不佳，表明功能词携带关于话语结构的重要信号。

## 附录 Q 对时间步离散化的敏感性

> **图 12**: SummEval 上的完整 时间步 $\times$ 维度热图。每个单元格显示单时间步 $DiffScore$ 与人工判断之间的 Spearman $\rho$。

图 12 [https://arxiv.org/html/2605.11601#A17.F12](https://arxiv.org/html/2605.11601#A17.F12) 提供了完整的时间步 $\times$ 维度相关性热图。清晰的对角线模式——流畅性在低 $t$ 时达到峰值，一致性在中 $t$ 时达到峰值，连贯性和相关性在高 $t$ 时达到峰值——为支持质量剖面机制的多粒度假设提供了强有力的实证支持。值得注意的是，$t=1.0$ 时所有维度的相关性为零，因为完全掩码所有 token 会消除任何信息性上下文，并将预测简化为模型的条件先验。这证实评估信号源于掩码和未掩码 token 之间的相互作用，而不仅仅来自模型的先验。

## 附录 R 消融研究：扩展结果

我们提供了正文表 5 [https://arxiv.org/html/2605.11601#S6.T5](https://arxiv.org/html/2605.11601#S6.T5) 之外的扩展消融结果，包括所有配置的各维度分解。

### R.1 评分模式比较：ELBO 与平均对数概率

表 22 [https://arxiv.org/html/2605.11601#A18.T22](https://arxiv.org/html/2605.11601#A18.T22) 比较了严格的 ELBO 加权 ($\omega(t_k) = 1/t_k$) 与平均对数概率（MLP）加权 ($\omega(t_k) = 1/|\mathcal{M}_{t_k}|$)。

**表 22**: SummEval 上的评分模式比较（Spearman $\rho$）。MLP 产生更稳定的估计。

MLP 模式始终优于 ELBO 加权，在连贯性（+.065）和相关性（+.070）上增益尤为显著。这种优势源于 ELBO 中的 $1/t$ 因子放大了低掩码率下的高方差估计，在这些情况下只有少数 token 被掩码。MLP 按实际掩码位置数量进行归一化，产生更稳定的每个 token 分数。

### R.2 时间步离散化

正文中关于时间步数量 $T$ 的消融（表 5 [https://arxiv.org/html/2605.11601#S6.T5](https://arxiv.org/html/2605.11601#S6.T5)）显示 $T=10$ 实现了最佳平均性能。更细的离散化（$T=20$）引入了估计噪声，因为每个时间步箱包含较少的样本，增加了每个时间步估计的方差。更粗的离散化（$T=5$）错过了一些维度（特别是连贯性，其

DiffScore：超越自回归似然性的文本评估

相似文章

DiffRetriever：基于扩散语言模型的并行代表性令牌检索

通过熵门控连续比特流扩散缩小语言建模中的自回归差距

TextLDM：利用连续潜在扩散进行语言建模

对数似然、辛普森悖论与机器生成文本的检测

CRoCoDiL: 用于语言的连续且鲁棒的条件扩散

提交意见反馈