通过平滑MMD对齐增强LLM中的数值预测
摘要
引入平滑最大均值差异(SMMD),一种损失函数,通过核匹配和基于图的平滑性将预测数值分布与目标对齐,提高了LLM在多个任务中的数值预测准确性。
arXiv:2606.27731v1 通告类型:新
摘要:尽管大型语言模型(LLM)具有强大的通用能力,但在输出必须数值精确时往往不可靠。一个关键原因是训练目标:标准的交叉熵将数值标记视为无结构类别,忽略了它们值的度量结构。我们通过平滑最大均值差异(SMMD)来解决这种不匹配,SMMD在经典MMD的基础上,通过引入数值标记上的值距离核和基于图的平滑性。通过在这个数值子词汇表上定义的核,SMMD通过核匹配将预测的数值分布与目标对齐,并在诱导核图上平滑预测-目标残差,以鼓励局部一致性。我们在四个数值目标任务上评估了SMMD:数学推理、算术计算、时钟时间识别和图表问答,使用了多个开源权重的LLM和VLM骨干网络。SMMD在交叉熵和最近的数值目标损失上持续提高了准确性;分析显示了MMD和平滑性之间的互补效应,并强调了基于距离的核设计的重要性。代码可在 https://github.com/Zuozhuo/smmd-loss 获取。
查看缓存全文
缓存时间: 2026/06/29 05:24
# 通过平滑MMD对齐增强LLM中的数值预测
来源:https://arxiv.org/html/2606.27731
###### 摘要
尽管大型语言模型(LLMs)具备强大的通用能力,但在需要数值精确输出的任务中往往不可靠。一个关键原因在于训练目标:标准交叉熵将数值标记视为无结构的类别,忽略了其值的度量结构。我们通过平滑最大均值差异(Smooth Maximum Mean Discrepancy, SMMD)来解决这一不匹配问题,该方法在经典MMD基础上引入了数值标记的值距离核和图基平滑度。通过在此数值子词汇表上定义核,SMMD通过核匹配将预测的数值分布与目标对齐,并在诱导核图上平滑预测-目标残差以鼓励局部一致性。我们在四个数值目标任务(数学推理、算术计算、时钟时间识别和图表问答)上评估SMMD,跨越多个开源权重LLM和VLM骨干网络。SMMD在交叉熵和最近的数值目标损失上均持续提升准确率;分析显示MMD与平滑度之间具有互补效应,并强调了基于距离的核设计的重要性。代码可在 https://github.com/Zuozhuo/smmd-loss 获取。
机器学习,大型语言模型,数值预测,最大均值差异
## 1 引言
参见图注 图1:SMMD概览。(a) 从logits中,我们限制到数值子词汇表Vnum并应用softmax得到数值分布p,将其与独热目标q进行比较。(b) 通过将RBF核应用于成对差值|vi-vj|来预计算值距离诱导核K,因此数值更接近的标记具有更高的相似度。(c) 训练结合了核MMD对齐与残差r=p-q上的平滑正则化,以鼓励沿着数值轴的局部连贯误差。最终目标为LSMMD=LMMD+α LSmooth,其中α通过基于度的正则化自动设置。
大型语言模型(LLMs)在自然语言生成和推理方面取得了显著进展(OpenAI, 2023 (https://arxiv.org/html/2606.27731#bib.bib38);Minaee等, 2025 (https://arxiv.org/html/2606.27731#bib.bib37);Guo等, 2025 (https://arxiv.org/html/2606.27731#bib.bib36)),但在需要精确数值输出的任务中仍不可靠(Spithourakis and Riedel, 2018 (https://arxiv.org/html/2606.27731#bib.bib1);Zausinger等, 2025 (https://arxiv.org/html/2606.27731#bib.bib26))。这一弱点远远超出了基础算术应用题(Cobbe等, 2021 (https://arxiv.org/html/2606.27731#bib.bib3)),在更复杂的数值背景情境中也表现出来,从视觉数值推理(Masry等, 2022 (https://arxiv.org/html/2606.27731#bib.bib4);Methani等, 2020 (https://arxiv.org/html/2606.27731#bib.bib5);Kafle等, 2018 (https://arxiv.org/html/2606.27731#bib.bib6);Saxena等, 2025 (https://arxiv.org/html/2606.27731#bib.bib7))到专门的科学和工程工作流,其中精确的数值参数直接决定输出(Zuo等, 2025 (https://arxiv.org/html/2606.27731#bib.bib41);Guo等, 2026 (https://arxiv.org/html/2606.27731#bib.bib42))。在这些场景中,即使模型背后的推理看似合理,也经常产生错误的数值输出。此类失败在科学、金融和决策流程中尤其不受欢迎,因为数值错误可能传播并导致定性不同的结果。
一个根本原因是数值值的度量结构与用于建模这些值的训练信号不匹配。在下一个标记预测中,数值标记被当作类别标签处理,并用交叉熵(CE)优化,这忽略了序数和距离信息:将“3”误认为“4”与将“3”误认为“7”受到相同的惩罚。因此,目标函数不激励模型在其预测分布中表达值之间的邻近性,尽管这种邻近性对于数值推理和下游决策往往至关重要(Spithourakis and Riedel, 2018 (https://arxiv.org/html/2606.27731#bib.bib1))。
近期,越来越多的研究开始将度量结构引入监督信号,尤其是通过推土机距离(Earth Mover's Distance, EMD)(Zausinger等, 2025 (https://arxiv.org/html/2606.27731#bib.bib26);Fei等, 2025 (https://arxiv.org/html/2606.27731#bib.bib2))。具体而言,基于EMD的监督通过根据预测概率质量与真实数值标记的距离对其进行加权来惩罚模型。尽管这些基于传输的损失原则上是有效的,但它们并没有明确鼓励训练信号的局部平滑性。特别地,即使大部分概率质量接近目标,每个标记的错误信号在相邻数值标记之间可能不均匀变化,使得模型在正确值附近的行为不够稳定。
受这些不足的启发,我们采用核分布视角并引入平滑最大均值差异(SMMD)。SMMD将经典核MMD框架(Gretton等, 2012 (https://arxiv.org/html/2606.27731#bib.bib8))适配到LLM的离散标记分布,据我们所知,这是首次使用核分布匹配来监督数值标记预测。与直接惩罚传输成本的目标不同,SMMD采用整体的基于核的方法:它将值距离转化为相似性核,并通过在再生核希尔伯特空间(RKHS)中匹配矩来对齐预测分布和目标分布。除了这种全局对齐,SMMD还通过在核诱导的Dirichlet能量上对预测-目标残差施加平滑约束,进一步促进局部一致性。最终目标轻量级,无需修改架构,并且可以在训练期间无缝地与交叉熵结合使用。
我们在一个多样化的数值输出任务套件上评估SMMD,涵盖数学推理、算术计算、时钟时间识别和图表问答。实验表明,SMMD在多种纯语言和视觉-语言骨干网络及数据集上持续提升数值准确率。进一步分析表明,核匹配和平滑正则化在不同方面互补,且改进依赖于尊重值对齐距离结构的核。最后,敏感性结果表明SMMD在广泛的超参数选择下保持稳定。
## 2 相关工作
##### 语言模型中的数感。
尽管现代LLM在通用任务上表现出色,但它们对数值值的理解仍然惊人地脆弱。早期的批评指出,将数字视为标准文本标记忽略了其潜在的幅度,这引发了向数值感知建模的转变(Spithourakis and Riedel, 2018 (https://arxiv.org/html/2606.27731#bib.bib1))。大部分工作集中在表示上,从数字级分词到特定数感的训练信号(Geva等, 2020 (https://arxiv.org/html/2606.27731#bib.bib9)),有证据表明即使微妙的分词选择也会从根本上改变算术性能(Singh and Strouse, 2024 (https://arxiv.org/html/2606.27731#bib.bib10))。另一个方向通过连续或结构化编码注入更合适的归纳偏差,特别是在科学和属性预测场景中(Golkar等, 2024 (https://arxiv.org/html/2606.27731#bib.bib11)),并通过条件序列回归公式将生成与连续目标连接起来(Born and Manica, 2023 (https://arxiv.org/html/2606.27731#bib.bib12))。最近的表示级工作进一步通过傅里叶特征改进单标记数字嵌入,为在模型参数中编码数值结构提供了一种补充方法(Zhou等, 2026 (https://arxiv.org/html/2606.27731#bib.bib40))。补充性工作针对数字生成的顺序性质,例如改变数字解码顺序以更好地与算术结构对齐(Zhang-Li等, 2024 (https://arxiv.org/html/2606.27731#bib.bib13))。与我们最接近的是,几种方法在不改变架构的情况下修订数值输出的训练信号:NTL引入数值标记上的值感知目标,包括Wasserstein风格损失(Zausinger等, 2025 (https://arxiv.org/html/2606.27731#bib.bib26)),NTIL进一步扩展基于EMD的监督以鼓励标记和序列级别的数值完整性(Fei等, 2025 (https://arxiv.org/html/2606.27731#bib.bib2))。DIST2也通过根据数值邻近性塑造目标将度量距离注入标记级监督(Chung等, 2026 (https://arxiv.org/html/2606.27731#bib.bib39));相比之下,我们的SMMD保持独热目标,在RKHS中进行核分布匹配,并通过图平滑度进一步正则化预测-目标残差。正交地,推理时策略如验证器(Cobbe等, 2021 (https://arxiv.org/html/2606.27731#bib.bib3))、思维链提示(Wei等, 2023 (https://arxiv.org/html/2606.27731#bib.bib14))或程序辅助执行(Gao等, 2023 (https://arxiv.org/html/2606.27731#bib.bib15))可以提高准确率,而面向算术的扩展预训练也可以增强数感(Petrak等, 2023 (https://arxiv.org/html/2606.27731#bib.bib16))。总体而言,这些线索指向一个持久的目标不匹配:数值错误具有固有的度量意义(偏离数值多少),但标准交叉熵只奖励精确标记匹配,并未向学习过程暴露这种结构。
##### 最大均值差异(MMD)与分布匹配。
MMD是一种基于核的分布之间的距离,最初通过核均值嵌入用于双样本检验(Gretton等, 2012 (https://arxiv.org/html/2606.27731#bib.bib8))。在深度学习中,它常被用作实用的分布匹配惩罚项。对于领域适应,基于MMD的损失对齐源域和目标域的特征分布,多核变体增强了跨尺度的鲁棒性(Long等, 2015 (https://arxiv.org/html/2606.27731#bib.bib22))。对于生成建模,MMD作为无似然训练信号,包括学习执行匹配的特征空间的对抗变体(Li等, 2015 (https://arxiv.org/html/2606.27731#bib.bib24), 2017 (https://arxiv.org/html/2606.27731#bib.bib25))。当显式似然不可用时,相关的核差异也作为表征学习和潜变量模型的正则化项出现(Tolstikhin等, 2017 (https://arxiv.org/html/2606.27731#bib.bib19);Zhao等, 2018 (https://arxiv.org/html/2606.27731#bib.bib20))。与通常的特征级匹配设置不同,我们将MMD实例化为数值子词汇表上的有监督、逐标记目标,使用包含值邻近性的距离诱导核,并将其与平滑偏差配对以鼓励沿数值轴的局部连贯行为。
## 3 方法
我们研究自回归语言模型中的数值预测。给定上下文,模型输出词汇表V上的logits l∈R|V|,从而产生完整的下一个标记分布p~=softmax(l)。
这里的重点是数值标记——即字符串形式可以确定性地解析为实数值的标记(通过标准浮点数转换)。我们预计算一个数值子词汇表Vnum⊆V,大小为N=|Vnum|,并通过双射π: Vnum→{1,...,N}为其建立索引,其中索引i对应解析后的数值vi∈R。构造过程总结在附录A (https://arxiv.org/html/2606.27731#A1)中。
在任何真实标记y位于Vnum中的训练位置,将logits限制在Vnum上并重新归一化以形成数值分布:
p = softmax(l[Vnum]) ∈ ΔN, (1a)
q = eπ(y) ∈ ΔN. (1b)
等价地,p是限制在Vnum上的条件下一个标记分布(在Vnum上重新归一化),而标准交叉熵LCE在全词汇表V上使用p~计算。对于y∉Vnum的位置,我们的数值感知项设置为零。
标准交叉熵只奖励精确匹配,并将所有错误的数值标记视为同等惩罚。我们的目标是引入一种数值感知的训练损失,该损失尊重{vi}i=1N的度量结构:损失应随着预测数值分布接近目标分布而减少,同时与标记级自回归训练保持兼容。
### 3.1 数值标记上的距离诱导核
数值标记通过其底层的值具有固有的几何结构:例如,在数值空间中,3比9更接近4。我们将这种几何结构编码为Vnum上的相似性核,方法是将成对的值距离映射到核权重。
对于索引i,j∈{1,...,N},定义值距离
d(i,j) = |vi - vj|. (2)
然后通过使用(可能多尺度的)径向核将距离转换为相似性来获得PSD核矩阵:
Kij = (1/|Σ|) ∑_{σ∈Σ} κσ(d(i,j)), (3)
其中Σ是一个有限的带宽集合,κσ(·)为数值上更接近的标记赋予更高的相似性。在本文中,κσ实例化为径向基函数(RBF),
κσ(d) = exp(-d^2/(2σ^2)). (4)
直观上,σ控制局部性:σ越小,相似性随|vi-vj|衰减越快;σ越大,则使相距较远的值耦合在一起。由于RBF核在R上是PSD的,且非负平均保留半正定性,得到的Gram矩阵K∈RN×N是对称PSD的,且Kii=1。
##### 关于核K的实用说明。
在现代LLM中,Vnum通常由数字标记组成(因此N=10)。更一般地,即使将多位整数作为单个标记包括(例如{0,...,999}),N最多为10^3。因此,核可以每分词器预计算一次,并在整个训练过程中重复使用,开销可忽略。
### 3.2 核MMD对齐
利用核相似文章
仅靠拟合是不够的:极低量化大语言模型中的平滑性
本文探讨了极低量化大语言模型中的平滑性退化问题,认为除了数值精度外,保持平滑性对于维持模型性能至关重要。
通过强化学习将分布感知注入多模态大语言模型以应对深度不平衡回归
本文介绍了一种分布感知的强化学习框架,该框架利用基于批级比较的监督信号,提升了多模态大语言模型在长尾数值回归任务中的性能。
超越表面统计:通过内部表示实现LLM鲁棒共形预测
本论文提出了一个利用内部表示而非输出层统计的LLM共形预测框架,引入层级信息(LI)评分作为非一致性度量,在分布偏移下改进有效性-效率权衡。该方法在QA基准上相比文本级基线展现出更强的对校准-部署不匹配的鲁棒性。
通过宽基线匹配激发MLLMs中的复杂空间推理
本文介绍了ReasonMatch-Bench,一个用于多模态大语言模型中宽基线匹配的基准,并提出了动态对应强化学习(DCRL)以提升空间推理能力。实验表明,该方法在基准测试上取得了显著提升,同时保持了通用性能。
关于预测预训练大语言模型(LLM)的后训练潜力
本文介绍了 RuDE,这是一种通过利用响应鉴别力来预测预训练大语言模型(LLM)后训练潜力的框架,旨在解决 MMLU 等传统基准测试的局限性。