DiffScore:超越自回归似然性的文本评估

arXiv cs.CL 论文

摘要

本文介绍了 DiffScore,这是一个基于掩码大型扩散语言模型(Masked Large Diffusion Language Models)的文本评估框架,通过利用掩码重建来解决自回归评分中的位置偏差问题。

arXiv:2605.11601v1 公告类型:新发布 摘要:自回归语言模型被广泛用于文本评估,然而,其从左到右的分解方式引入了位置偏差,即早期的词元仅依据左侧上下文进行评分,导致架构不对称性与真实文本质量混淆。我们提出以掩码重建作为替代范式,其中每个词元均利用完整的双向上下文进行评分。我们引入了 DiffScore,这是一个建立在掩码大型扩散语言模型之上的评估框架。通过衡量在不同连续掩码率下的文本可恢复性,DiffScore 消除了位置偏差,并自然地建立了从局部流畅性到全局连贯性的评估层级。我们还提供了自回归框架所不具备的诊断工具:多时间步质量配置文件,该文件将分数按掩码率分解;以及双向 PMI(互点互信息)分解,用于分离流畅性与忠实度。在十个基准测试上的实验表明,DiffScore 在零样本和微调设置中均一致优于自回归基线。代码已发布在:https://github.com/wenlai-lavine/DiffScore。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/13 06:15

# 超越自回归似然的文本评估

**来源**: https://arxiv.org/html/2605.11601

**作者**: Wen Lai¹, Yingli Shen²*, Dingnan Jin¹, Qing Cui¹, Jun Zhou¹, Maosong Sun², Alexander Fraser³

**机构**: ¹蚂蚁集团 ²清华大学 ³慕尼黑工业大学

**邮箱**: [email protected], [email protected]

###### 摘要

自回归语言模型被广泛用于文本评估,然而其从左到右的分解方式引入了位置偏差,即早期 token 仅基于左侧上下文进行评分,从而将架构不对称性与真实的文本质量混淆。我们提出*掩码重建(masked reconstruction)*作为一种替代范式,其中每个 token 都使用完整的双向上下文进行评分。我们引入了 **DiffScore**,这是一个建立在掩码大扩散语言模型(Masked Large Diffusion Language Models)之上的评估框架。通过测量在不同连续掩码率下的文本可恢复性,**DiffScore** 消除了位置偏差,并自然地建立了一个从局部流畅性到全局连贯性的评估层级。我们还提供了自回归框架所不具备的诊断工具:*多时间步质量剖面(multi-timestep quality profiles)*,用于跨掩码率分解分数;以及*双向 PMI 分解(bidirectional PMI decomposition)*,用于解耦流畅性与忠实度。在十个基准上的实验表明,**DiffScore** 在零样本和微调设置下均一致优于自回归基线。代码已发布在:https://github.com/wenlai-lavine/DiffScore。

> **图 1**: **DiffScore** 在 10 个多样化的评估基准上始终优于所有基线方法。

## 1 引言

评估自然语言生成(NLG)仍然具有挑战性,这是因为语义等价的输出之间存在巨大的词汇差异 [clark-etal-2021-thats](https://arxiv.org/html/2605.11601#bib.bib1); [gehrmann2023repairing](https://arxiv.org/html/2605.11601#bib.bib2)。评估方法已从 n-gram 重叠度(BLEU [papineni-etal-2002-bleu](https://arxiv.org/html/2605.11601#bib.bib3), ROUGE [lin-2004-rouge](https://arxiv.org/html/2605.11601#bib.bib4))和语义匹配(BERTScore [Zhang*2020BERTScore:](https://arxiv.org/html/2605.11601#bib.bib5), MoverScore [zhao-etal-2019-moverscore](https://arxiv.org/html/2605.11601#bib.bib6))发展到生成式评分(BARTScore [yuan2021bartscore](https://arxiv.org/html/2605.11601#bib.bib7), GPTScore [fu-etal-2024-gptscore](https://arxiv.org/html/2605.11601#bib.bib8))以及 LLM-as-Judge 方法(G-Eval [liu-etal-2023-g](https://arxiv.org/html/2605.11601#bib.bib9))。其中,通过条件对数似然 $\sum_n \log p(x_n | x_{<n})$ 进行的自回归(AR)评分...

> *[注:原文此处截断,以下为恢复后的主要章节内容]*

... $p(x_n | x_{<n})$ 进行评分。然而,这种单向建模方式导致早期 token 缺乏足够的上下文,从而引入位置偏差。我们提出的 **DiffScore** 通过掩码重建机制解决了这一问题,利用双向上下文为每个 token 提供公平评分。

## ... [中间章节省略] ...

## 附录 K PMI 分解:扩展分析

### K.1 对抗性测试集构建

PMI 分解实验(§6.2 [https://arxiv.org/html/2605.11601#S6.SS2](https://arxiv.org/html/2605.11601#S6.SS2))使用了从 SummEval 构建的两个对抗性扰动条件。我们在此详细说明构建过程。

#### 流畅但不相关候选项(Fluent-irrelevant candidates)

对于 SummEval 中的每个源文档,我们用从*不同* SummEval 源文档中随机采样的高质量摘要替换原始候选摘要。这产生了内在流畅且结构良好(高边际分数)但与主题无关的候选项(低条件增益,因此低 PMI)。

> **示例**:
>
> **源文档**: (CNN) Donald Sterling 的种族主义言论去年让他失去了一支 NBA 球队。但现在是他前女性伴侣遭受重大损失...
>
> **原始摘要**: V. Stiviano 必须偿还 Donald Sterling 赠送的 260 万美元礼物...
>
> **流畅但不相关**: Harry Kane 本赛季为 Tottenham 表现出色。这位 21 岁的球员在所有比赛中为 Spurs 打进 30 球...

#### 不流畅但相关候选项(Disfluent-relevant candidates)

对于每个源文档,我们对原始摘要应用受控扰动以降低流畅性,同时保持主题相关性。扰动包括:(i) 从句内的词序交换,(ii) 冠词/介词替换,(iii) 词语重复,以及 (iv) 轻微删除。

> **示例**:
>
> **原始**: V. Stiviano 必须偿还 Donald Sterling 赠送的 260 万美元礼物。
>
> **不流畅但相关**: V. must Stiviano pay back $2.6 million on gift from Donald Sterling.

### K.2 详细的 PMI 分解结果

表 15 [https://arxiv.org/html/2605.11601#A11.T15](https://arxiv.org/html/2605.11601#A11.T15) 扩展了正文中的表 4 [https://arxiv.org/html/2605.11601#S6.T4](https://arxiv.org/html/2605.11601#S6.T4),增加了标准差和统计检验细节,提供了分解可靠性的更完整图景。

**表 15**: 带有标准差的扩展 PMI 分解结果。所有成对差异在 $p<10^{-5}$ (Mann–Whitney U) 下均显著,除非标记为 †。

**关键观察**:
1. 对于流畅但不相关的候选项,边际分数与原始分数在统计上无显著差异 ($DiffScore$ $p=0.32$, $BARTScore$ $p=0.50$),证实流畅性得以保留。
2. $DiffScore$ 的 PMI 下降更为显著(从 $+1.88$ 降至 $+0.11$,减少 $94.1\%$),相比之下 $BARTScore$ 从 $+2.61$ 降至 $-0.26$,表明分离更干净。
3. $DiffScore$ 在所有条件下实现了更紧的标准差(平均 Std 0.50 vs $BARTScore$ 0.55),增强了分解的统计可靠性。
4. 对于不流畅但相关的候选项,两种方法的 PMI 保留率都很高 ($+1.77$ 和 $+2.27$),证实相关性信号对流度的退化具有鲁棒性。

## 附录 L 位置偏差:扩展分析

> **图 8**: 每个位置的 token 级别分数分布。$DiffScore$ 的平均位置标准差为 2.31,而 $BARTScore$ 为 5.61(降低 $2.4$ 倍)。

表 16 [https://arxiv.org/html/2605.11601#A12.T16](https://arxiv.org/html/2605.11601#A12.T16) 呈现了详细的位置偏差统计。变异系数(CoV)提供了一种归一化度量,考虑了两种方法之间绝对分数幅度的差异。

**表 16**: SummEval 上的位置偏差统计。较低的值表示更公平的位置评估。

平均位置标准差降低 $2.4$ 倍表明,双向掩码产生了实质性地更公平的位置评估。定性来看,$BARTScore$ 的每个位置分布显示出典型的“预热”模式,即早期 token(位置 1-5)由于左侧上下文贫乏而系统性地获得较低的分数。$DiffScore$ 的分布在各个位置上更加均匀,因为每个 token 无论其顺序位置如何,都在随机双边上下文中进行评估。

## 附录 M 方向一致性:扩展分析

> **图 9**: 200 个合成正向-反向对上的方向一致性。

### M.1 测试集构建

我们构建了 200 个合成序列对,其中正向和反向形式表达相同的事实内容,并在无偏评估器下应获得相同的质量分数。示例遵循以下模式:

> **正向**: “Daphne Barrington 撰写了《Shattered Light》”
> **反向**: “《Shattered Light》由 Daphne Barrington 撰写”

这些对涵盖多样化的关系(作者身份、发明、发现、创立),并使用虚构实体以避免记忆效应。

### M.2 详细结果

**表 17**: 200 个合成反转对上的方向一致性结果。

$DiffScore$ 在正向和反向分数之间的秩相关性提高了 76%(0.471 vs 0.267)。这表明对随机掩码模式进行边缘化产生了内在对称的评估基底,而自回归分解不可避免地引入了与反转诅咒(Reversal Curse)[10](https://arxiv.org/html/2605.11601#bib.bib10) 一致的方向性伪影。平均一致性分数(每对的最小/最大分数比率)在 $DiffScore$ 上也更高(0.885 vs 0.868),且方差更低(0.082 vs 0.091),表明更稳定的双向评估。

## 附录 N 跨架构泛化:Dream 结果

为了验证 $DiffScore$ 的优势源于掩码重建范式而非特定模型,我们在 Dream-7B [13](https://arxiv.org/html/2605.11601#bib.bib13) 上实例化该框架。表 18 [https://arxiv.org/html/2605.11601#A14.T18](https://arxiv.org/html/2605.11601#A14.T18) 报告了完整结果。

**表 18**: 使用 Dream-7B 进行跨架构评估。

| 方法 | WMT19 ($\tau$) Avg | Best pair | SummEval ($\rho$) Avg | Best dim |
| :--- | :--- | :--- | :--- | :--- |
| Dream-Zero | 0.051 | 0.206 (gu-en) | -0.144 | -0.144 |
| Dream-FT | 0.328 | 0.473 (zh-en) | 0.382 | 0.462 (CON) |
| BARTScore | 0.342 | 0.428 (zh-en) | 0.375 | 0.441 (COH) |
| DiffScore-FT (LLaDA) | 0.356 | 0.458 (zh-en) | 0.385 | 0.486 (CON) |

**关键发现**:
1. Dream-Zero 在所有任务中产生近乎随机的相关性,表明缺乏足够预训练规模和指令微调的基础 MDLLM 缺乏零样本评估所需的语言先验。
2. 微调后,Dream-FT 的性能完全释放,并取得了与 BARTScore 具有竞争力的结果,证实掩码重建目标提供了一种普遍有效的归纳偏置。
3. 基于 LLaDA 的 $DiffScore-FT$ 始终优于 Dream-FT,证明更强的预训练表示直接转化为更优越的评估能力。

这种跨架构验证很重要,原因有二。首先,它排除了 $DiffScore$ 的改进是由于 LLaDA 的特定架构或预训练数据而非掩码重建范式的possibility。其次,它表明随着 MDLLM 的持续改进,$DiffScore$ 将直接受益。

## 附录 O 案例研究:Token 级分析

我们展示了来自 SummEval 的详细案例研究,以通过 token 级分数分析说明 $DiffScore$ 的可解释性。

### O.1 高质量摘要

**表 19**: 高质量摘要的 Token 级分析(人工评分:COH=5.0, CON=5.0, FLU=5.0, REL=4.3)。

功能词和高频 token 获得较高的重建分数,反映了模型强大的语言建模先验。值得注意的是,源文档中直接提及的专有名词(“Holland,” “Tampa”)得分中等,表明源-候选对齐成功。标点符号 token 得分较低,因为其确切位置较难从上下文中预测。

### O.2 低质量摘要

**表 20**: 低质量摘要的 Token 级分析(人工评分:COH=1.0, CON=4.7, FLU=4.3, REL=2.3)。

低质量摘要表现出近乎随机的话语结构(多个句子缺乏逻辑流,结尾处有一个修辞性问题)。虽然每个句子内的单个 token 取得了合理的分数(与源高度一致),但转换 token 和话语标记得分很低,反映了较差的全局连贯性。对最终句号的极端惩罚(-11.03)表明模型认为问号后的突然结束可能性极低。

### O.3 诊断可视化

> **图 10**: 左:PMI 分解可视化,显示条件分数和边际分数如何针对不同质量级别分离。右:Token 级质量剖面热图,说明细粒度的质量模式。

$DiffScore$ 的诊断工具使得超越标量分数的细粒度分析成为可能。PMI 分解(图 10,左)直观地展示了不同质量层级下流畅性和相关性组件的分离,而质量剖面热图(图 10,右)揭示了哪些 token 在不同掩码率下最难重建,为 NLG 系统开发人员提供了可操作的诊断信息。

## 附录 P 掩码策略比较

> **图 11**: SummEval 上的掩码策略比较。均匀随机掩码显著优于结构化替代方案。

除了正文中的消融结果(表 5 [https://arxiv.org/html/2605.11601#S6.T5](https://arxiv.org/html/2605.11601#S6.T5))外,图 11 [https://arxiv.org/html/2605.11601#A16.F11](https://arxiv.org/html/2605.11601#A16.F11) 可视化了不同掩码策略的各维度性能。表 21 [https://arxiv.org/html/2605.11601#A16.T21](https://arxiv.org/html/2605.11601#A16.T21) 提供了详细的数值比较。

**表 21**: SummEval 上的掩码策略比较(Spearman $\rho$)。均匀随机掩码在所有维度上均优于结构化替代方案。

均匀随机掩码在所有维度上都优于仅内容词掩码和仅实体掩码。这证实了全面覆盖所有类型的 token——包括功能词、标点符号和结构 token——对于可靠的质量评估至关重要。仅实体掩码表现最差,平均仅达到随机掩码性能的 51.5%,因为它忽略了流畅性和连贯性评估至关重要的语法和话语级信号。仅内容词掩码在一致性上表现中等(相对 99.0%),但在连贯性(72.5%)和相关性(65.9%)上表现不佳,表明功能词携带关于话语结构的重要信号。

## 附录 Q 对时间步离散化的敏感性

> **图 12**: SummEval 上的完整 时间步 $\times$ 维度热图。每个单元格显示单时间步 $DiffScore$ 与人工判断之间的 Spearman $\rho$。

图 12 [https://arxiv.org/html/2605.11601#A17.F12](https://arxiv.org/html/2605.11601#A17.F12) 提供了完整的时间步 $\times$ 维度相关性热图。清晰的对角线模式——流畅性在低 $t$ 时达到峰值,一致性在中 $t$ 时达到峰值,连贯性和相关性在高 $t$ 时达到峰值——为支持质量剖面机制的多粒度假设提供了强有力的实证支持。值得注意的是,$t=1.0$ 时所有维度的相关性为零,因为完全掩码所有 token 会消除任何信息性上下文,并将预测简化为模型的条件先验。这证实评估信号源于掩码和未掩码 token 之间的相互作用,而不仅仅来自模型的先验。

## 附录 R 消融研究:扩展结果

我们提供了正文表 5 [https://arxiv.org/html/2605.11601#S6.T5](https://arxiv.org/html/2605.11601#S6.T5) 之外的扩展消融结果,包括所有配置的各维度分解。

### R.1 评分模式比较:ELBO 与平均对数概率

表 22 [https://arxiv.org/html/2605.11601#A18.T22](https://arxiv.org/html/2605.11601#A18.T22) 比较了严格的 ELBO 加权 ($\omega(t_k) = 1/t_k$) 与平均对数概率(MLP)加权 ($\omega(t_k) = 1/|\mathcal{M}_{t_k}|$)。

**表 22**: SummEval 上的评分模式比较(Spearman $\rho$)。MLP 产生更稳定的估计。

MLP 模式始终优于 ELBO 加权,在连贯性(+.065)和相关性(+.070)上增益尤为显著。这种优势源于 ELBO 中的 $1/t$ 因子放大了低掩码率下的高方差估计,在这些情况下只有少数 token 被掩码。MLP 按实际掩码位置数量进行归一化,产生更稳定的每个 token 分数。

### R.2 时间步离散化

正文中关于时间步数量 $T$ 的消融(表 5 [https://arxiv.org/html/2605.11601#S6.T5](https://arxiv.org/html/2605.11601#S6.T5))显示 $T=10$ 实现了最佳平均性能。更细的离散化($T=20$)引入了估计噪声,因为每个时间步箱包含较少的样本,增加了每个时间步估计的方差。更粗的离散化($T=5$)错过了一些维度(特别是连贯性,其

相似文章

TextLDM:利用连续潜在扩散进行语言建模

Hugging Face Daily Papers

本文介绍了 TextLDM,这是一种通过将离散标记映射到连续潜在空间,从而将视觉潜在扩散Transformer适配于语言建模的方法。研究表明,该方法在表示对齐的增强下,达到了与 GPT-2 相当的性能,并统一了视觉与文本生成的架构。

对数似然、辛普森悖论与机器生成文本的检测

arXiv cs.CL

本文通过指出基于似然的机器生成文本检测器在 token 分数聚合中存在的辛普森悖论,解决了此类检测器性能下降的问题。本文提出了一种学习到的局部校准步骤,显著提升了各种模型和数据集上的检测性能。