DEL：大型语言模型数值学习的数字熵损失

arXiv cs.CL 2026/05/21 04:00 论文
摘要
本文提出数字熵损失（DEL），一种用于大型语言模型数值学习的新型损失函数。它重新定义了熵优化，以提高数字级预测精度并处理浮点数，在数学推理基准上持续优于现有方法。
arXiv:2605.20369v1 公告类型：新摘要：数字预测是大语言模型（LLM）在数学问题求解和代码生成中的基本能力。广泛用于LLM训练的最大似然估计（MLE）并不适用于数字预测。近年来，基于惩罚的方法（例如数字令牌损失和离散距离损失）引入了数值距离的归纳偏差，但分别导致数字分布过于尖锐或过于平坦。本文对LLM的数值学习进行了深入分析，表明现有数值学习方法在概念上遵循准则-距离公式，其中准则项代表优化模式，距离项注入几何先验。因此，我们提出了用于自回归数值学习的数字熵损失（DEL），通过三个关键设计重新定义了传统的无监督熵优化：利用数字条件概率和二元交叉熵将熵优化引导为监督方式；弃用距离项以绕过数值距离问题；并将基于整数的数值学习推广到浮点数优化，从而实现更准确的数字预测。我们的DEL公式可以包含整数、小数和小数点，将学习目标从单个数字扩展到浮点数领域。在七个数学推理基准上，使用四种代表性LLM（包括CodeLlama、Mistral、DeepSeek和Qwen-2.5）进行的实验表明，DEL在整体预测精度和数值距离上均持续优于对应方法。源代码见https://github.com/PolyU-VCLab/DEL
查看原文
查看缓存全文
缓存时间: 2026/05/21 06:32
# 1 引言 来源：https://arxiv.org/html/2605.20369 ![[无标题图片]](https://arxiv.org/html/2605.20369v1/polyu-logo.png)![[无标题图片]](https://arxiv.org/html/2605.20369v1/vclab-logo.jpg)VISUAL COMPUTING LAB POLYU VCLAB • 预印本 2026 DEL：面向大型语言模型数值学习的数字熵损失 Zhaohui Zheng¹, Chenhang He¹, Shihao Wang¹, Yuxuan Li², Ming-Ming Cheng², Lei Zhang†¹ ¹香港理工大学 ²南开大学计算机学院VCIP 摘要. 数字预测是大型语言模型（LLM）在数学问题求解和代码生成中的一项基础能力。广泛采用的用于LLM训练的最大似然估计（MLE）并不适合数字预测。最近，基于惩罚的方法，例如Number Token Loss和Discretized Distance Loss，引入了数值距离的归纳偏差，但分别导致了过尖锐和过平坦的数字分布。在本文中，我们对LLM数值学习进行了深入分析，并表明现有的数值学习方法在概念上遵循一个准则-距离公式，其中准则项表示优化模式，距离项注入几何先验。因此，我们提出了面向自回归数值学习的Digit Entropy Loss（DEL），它通过三个关键设计重新定义了传统的无监督熵优化：利用数字条件概率和二元交叉熵将熵优化引导为监督方式；弃用距离项以规避数值距离问题；并将基于整数的数值学习推广到浮点数优化，从而实现更准确的数字预测。我们的DEL公式可以整合整数、小数和小数点，将学习目标从单个数字扩展到浮点数领域。在四个代表性LLM（包括CodeLlama、Mistral、DeepSeek和Qwen-2.5）上进行的七个数学推理基准实验表明，DEL在整体预测精度和数值距离方面均持续优于其对应方法。 关键词：大型语言模型，数值学习，损失函数，香港理工大学VCLab

大型语言模型（LLM）展现了卓越的自然语言处理能力，逐渐从处理简单的人机对话演变为复杂的深层推理，例如科学计算[58, 52, 49]和代码生成[44, 66, 53]。由于数字在我们的日常生活中无处不在，理解、推理并准确生成数值信息的能力已成为LLM的一项基础能力，是上述领域中定量分析、逻辑推理和执行算法稳定性的基石。自开创性工作[6]以来，优化语言模型的常用方法是最大似然估计（MLE），它最大化生成语言序列的条件概率的似然。然而，人们发现使用MLE优化LLM是次优的，因为MLE的零避免特性迫使模型为训练数据中观察到的任何标记分配非平凡概率。这将导致文本退化[21]、偏离类人文本[68]以及数据空洞高估[22]等问题。为了缓解这些问题，后来的代表性方法[22, 68, 43]考虑了使用新的距离替代方案，在一般文本预测中显示出有效性。然而，它们在数字预测方面的改进仍然有限，因为这些方法忽视了数值优化的特征。最近在数值学习[67, 10]方面的进展通过引入基于惩罚的方法提供了一种有前景的替代方案。通过在交叉熵损失中添加惩罚项来衡量数字之间的接近程度，数字携带的监督信号可以为LLM提供正面指导。如图1所示，NTL[67]明确将非目标标记的概率抑制到接近0，而DIST2Loss[10]强制一个平滑的目标分布。正如我们稍后将分析的，NTL和DIST2Loss在概念上都遵循准则-距离公式，其中准则项为LLM提供优化模式，距离项决定对每个数字概率施加的惩罚程度。然而，这两种损失存在一些局限性。

首先，它们严重依赖先验知识，即距离项的定义。例如，如果目标数字是3，预测7比预测4更远，因此将施加更大的惩罚。像[67]中那样严格的约束容易导致过尖锐的数字分布，而像[10]中那样宽松的约束则会在生成数字时产生更大的不确定性。此外，数字的语义信息是多方面的，不能仅由数值距离完全捕获。

其次，它们缺乏整体的数字意识。具体来说，NTL[67]在单数字优化范式内运行，这限制了其对多位数字全局数值结构建模的能力。DIST2Loss[10]为整数引入了数位加权，但由于小数被当作单独的整数处理，整数和小数之间的不连续惩罚仍然存在。

\begin{overpic}[width=433.62pt]{pic/optimization-goal}
\put(11.0,17.8){MLE}
\put(34.5,17.8){NTL \cite[cite]{[\@@bibref{Number}{NTL}{}{}]}}
\put(57.2,17.8){DIST$^{2}$Loss \cite[cite]{[\@@bibref{Number}{DIST2loss}{}{}]}}
\put(87.0,17.8){Ours}
\end{overpic}
图1： MLE、NTL[67]、DIST2Loss[10]和我们提出的DEL的优化目标比较。在示例中，5是目标标记。

在本文中，我们提出了面向自回归数值学习的Digit Entropy Loss（DEL）。受[60]中揭示现象的启发，高熵标记大多是逻辑连接词和过渡词，而低熵标记则表现出确定性。我们认为，高度确定的生成对于语言模型中的数值标记至关重要。这是因为作为一个离散且精确的符号系统，数字的语义来自其大小、数字序列和比例关系。此外，数值确定性是LLM在下游任务中可靠部署的必要前提。在这些见解的指导下，我们将注意力转向熵最小化。然而，传统的熵最小化可能陷入多个局部最优，因为任何一个独热向量都是解之一。为了解决这个问题，我们通过以下三个关键设计重新定义了传统的熵优化。首先，我们提出使用数字条件概率和二元交叉熵的组合作为新的准则项，特别关注数字的子空间。其次，我们弃用了距离项，因为它并不严格遵循LLM从海量真实世界语料库中学到的数字语义表示。最后，我们将数值学习推广到浮点数优化，在训练过程中识别ground-truth标记序列中的所有浮点数，使语言模型具备整体数字意识。为了评估我们提出的方法，我们将DEL应用于几个流行的LLM，包括CodeLlama、Mistral、DeepSeek-Math和Qwen-2.5。我们证明DEL能够提升链式思考（CoT）推理和程序式思考（PoT）代码生成中的数字预测性能。在七个数学推理基准上的实验表明，与最先进的对应方法相比，DEL实现了持续的精度提升和更低的数值距离。

## 2 相关工作

### 2.1 概率语言模型

概率语言模型长期以来被用于自然语言处理（NLP），例如神经机器翻译[37,45]、语音识别[15,40]和光学字符识别（OCR）[14,26]等。这种语言建模方法可以追溯到1992年的开创性工作[6]。通过对语言符号序列的一系列条件概率进行建模，研究人员观察到语言模型在大规模人类数据上训练后展现出了非凡的推理能力。随后，LSTM[20]和transformer[57]的出现极大地增强了语言模型建模长序列的能力。之后，词嵌入技术从学习词的静态表示[4,35]发展到像BERT[12]这样的上下文感知动态表示。另一个有趣的方法是提示方法。通过一些任务特定的示例，语言模型[7]可以更好地执行各种任务，甚至可以生成思维链（CoT）[61,36,63]，在数学文字题中表现出更好的性能。最近，程序式思考（PoT）[8]和程序辅助语言模型（PAL）[13]探索了代码生成，以克服数值计算错误和多轮迭代的低效率问题。

### 2.2 概率序列优化

在生成序列时，语言模型以自回归方式进行下一个标记预测。收集推理结果后，使用最大似然估计来优化序列概率。改进这种序列概率的想法并不新鲜。例如，MixCE[68]结合了反向交叉熵，帮助语言模型生成更接近人类的内容。TaiLr[22]利用总变差距离来减少对低概率预测的惩罚强度。另一个尝试是EMO[43]，它考虑使用推土机距离（EMD）来驱动EMD的可微上界。最近，数值序列的优化受到越来越多的关注，因为预测数值序列是许多推理任务的核心，例如算术[65]、数学推理[11,19]、代码生成[44,66]等。它也是一些视觉语言模型（VLM）[31,9,59]中的基本问题，在这些模型中，语言模型开始承担一些与对象相关的视觉定位和线索推理。为了优化数值序列，一种成功的方法，即Number Token Loss（NTL）[67]，已被发现对数学推理有用。NTL将数字距离纳入目标函数，从而使语言模型具有数字预测误差的意识。最近，DIST2Loss[10]提出模拟一种由数字距离驱动的软目标，在预测序列概率和软目标之间施加KL散度。尽管相对于最大似然估计有显著改进，但它们本质上基于数值距离的启发式定义。受上述方法启发，我们通过深入分析现有方法来研究语言模型中的数值学习，探索适应数值本质的有效方法。

## 3 语言模型中的数值学习

背景. 在涉及数值输出的推理任务中，具有参数Θ的语言模型M通常以自回归、逐个标记的方式预测数字[42,41,54]。令X为长度为T的语言序列。在预测第t个标记时，语言模型输出logits z_t = M_Θ(·|x_{<t})。然后通过softmax函数σ(·)将其转换为第t个位置（即p_t）的概率分布p_t = [p_t(1), ..., p_t(|V|)]。之后，使用交叉熵（CE）损失[6]来训练LLM：
L_CE = -log p_t(g)                                    (1)
其中g是ground-truth标记。为了提升数字预测性能，最近的方法[67,10]通过应用数字感知目标来改进式(1)。特别是，NTL和DIST2Loss将目标集中的数字作为优化信号重新引入，强制数字感知。
NTL [67] 将数字距离惩罚定义为：
R_NTL = -∑_{k=1}^{10} d_{k} · log(1 - p_t(k))          (2)
其中d_k表示预测标记k与目标标记g之间的距离，并且假设所有标记都表示单个数字。数字存在于0-9的范围内。因此，NTL损失可以写为：
L_NTL = L_CE + λ · R_NTL                                (3)
其中λ控制惩罚强度。
DIST2Loss [10] 定义了一个软目标u(t) = [u_t(0), ..., u_t(9)]，其中第i个目标质量计算如下（我们简化为第t个位置）：
u(i) = (1 - β) · σ(τ · dist(i,g)) / sum_{j≠g} σ(τ · dist(j,g))  if i ≠ g   (4a)
u(g) = β                                               (4b)
其中dist(i,g)表示数字距离，τ控制softmax的温度，β控制目标标记g的权重。然后DIST2Loss使用KL散度来强制预测接近软目标：
L_DIST2 = KL(p_t || u(t))                                (5)

动机和见解。 尽管NTL和DIST2Loss通过距离惩罚方案在数值学习上取得了成功，但它们的局限性源于距离项（即式(2)中的d_k和式(4)中的dist(i,g)）的启发式性质。随着优化的进行，模型自然会降低整个数字集上的概率分布（通过交叉熵），使得非目标标记的概率接近零。如果模型偶尔输出错误的数字，距离惩罚将惩罚较大错误。然而，来自距离项的信号源于设计者的期望，而不是从数据中学习到的数字的实际语义表示。因此，如果错误数字在语义上接近正确数字，距离惩罚可能有用，但模型也可能输出语义上远离但仍属常见错误的数字。然而，数值距离除了数字语义外还编码了顺序信息。因此，我们假设纯粹基于距离的数值学习在没有明确语义引导的情况下可能会产生次优结果。在后面的章节中，我们通过实验验证了这一假设，并基于我们的分析引入了DEL。

## 4 Digit Entropy Loss

在LLM的数值学习中，优化目标至关重要，因为它调节LLM输出分布的质量，影响数值推理的准确性和可靠性。图1展示了现有损失函数和提出的DEL的优化目标。在我们的公式中，我们考虑每次推理出一个数字标记和每个数字包含多个数字标记与小数点的情况。我们将第t个位置省略以简化表示法，将预测概率记为p。借鉴式(2)和式(4)，我们将数值学习的一般准则-距离公式定义为：
L_Num = H(p,g) + α · D(p,g)                              (6)
其中H是准则项，例如交叉熵或Kullback-Leibler散度，它为LLM提供学习模式。第二项D是距离项，例如式(2)或式(4)中定义的，它根据数字距离对分布进行惩罚。系数α平衡这两项。基于式(6)，我们评估了现有方法：对于NTL[67]，H(p,g) = L_CE且R_NTL在距离项中起到D(p,g)的作用。对于DIST2Loss[10]，H(p,g) = KL(p || u(t))且D(p,g) = 0（然而观察式(4)，距离信息嵌入在准则H中）。这表明DIST2Loss通过将距离嵌入转移到准则项中而偏离了经典的准则-距离公式。无论哪种方式，距离信息的整合通常依赖于先验知识，这可能无法完全捕捉LLM中学到的数字语义。因此，我们提出了DEL式(7)，它用一个新的基于熵的公式替换了准则项，并弃用了距离项。扩展如下：
L_DEL = H(p,g) + α · ∑_{g_t ∈ V_d} u(t) · p̂(·|x_{<t})   (7)
其中H(p,g)现在表示为p̂(g)与目标标记g的组合，V_d是数字标记集，u(t)是权重，p̂(·|x_{<t})是第t个位置的非目标数字分布。更新后的H(p,g)公式为：
H(p,g) = -[p̂(g) · log p̂(g) + (1 - p̂(g)) · log(1 - p̂(g))]  (8)
其中p̂(g)是预测为目标标记g的条件概率（在所有标记上的归一化概率，即p(g)）。方程(8)本质上是在目标g上的二元交叉熵。然后我们将准则项重写为：
H(p,g) = BCE(p̂(g), 1)                                   (9)
其中BCE表示二元交叉熵。在式(7)的第二项中，u(t)是一个归一化权重因子，确保数字标记上的总累积权重准确反映数值距离。我们定义u(t) = 1/|V_d|，其中|V_d|=10是数字标记集的大小。这种平坦权重设置确保对每个数字标记的惩罚一致，避免距离偏差并减少过优化。此外，我们有α > 0控制每个标记的惩罚幅度。DIST2Loss中u(t)与DEL的直观比较可见附录B的图C.1。最后，我们通过重写式(7)将DEL从单数字优化推广到浮点数优化：
L_DEL = H(p,g) + α ∑_{g_t ∈ V_d} u(t) · p̂(·|x_{<t})   (7)
其中H(p,g)现在表示为p̂(g)与目标标记g的组合，V_d是数字标记集，u(t)是权重，p̂(·|x_{<t})是第t个位置的非目标数字分布。更新后的H(p,g)公式为：
H(p,g) = -[p̂(g) · log p̂(g) + (1 - p̂(g)) · log(1 - p̂(g))]  (8)
其中p̂(g)是预测为目标标记g的条件概率（在所有标记上的归一化概率，即p(g)）。方程(8)本质上是在目标g上的二元交叉熵。然后我们将准则项重写为：
H(p,g) = BCE(p̂(g), 1)                                   (9)
其中BCE表示二元交叉熵。在式(7)的第二项中，u(t)是一个归一化权重因子，确保数字标记上的总累积权重准确反映数值距离。我们定义u(t) = 1/|V_d|，其中|V_d|=10是数字标记集的大小。这种平坦权重设置确保对每个数字标记的惩罚一致，避免距离偏差并减少过优化。此外，我们有α > 0控制每个标记的惩罚幅度。DIST2Loss中u(t)与DEL的直观比较可见附录B的图C.1。最后，我们通过重写式(7)将DEL从单数字优化推广到浮点数优化：
L_DEL = H(p,g) + α ∑_{g_t ∈ V_d} u(t) · p̂(·|x_{<t})   (7)
其中H(p,g)现在表示为p̂(g)与目标标记g的组合，V_d是数字标记集，u(t)是权重，p̂(·|x_{<t})是第t个位置的非目标数字分布。更新后的H(p,g)公式为：
H(p,g) = -[p̂(g) · log p̂(g) + (1 - p̂(g)) · log(1 - p̂(g))]  (8)
其中p̂(g)是预测为目标标记g的条件概率（在所有标记上的归一化概率，即p(g)）。方程(8)本质上是在目标g上的二元交叉熵。然后我们将准则项重写为：
H(p,g) = BCE(p̂(g), 1)                                   (9)
其中BCE表示二元交叉熵。在式(7)的第二项中，u(t)是一个归一化权重因子，确保数字标记上的总累积权重准确反映数值距离。我们定义u(t) = 1/|V_d|，其中|V_d|=10是数字标记集的大小。这种平坦权重设置确保对每个数字标记的惩罚一致，避免距离偏差并减少过优化。此外，我们有α > 0控制每个标记的惩罚幅度。DIST2Loss中u(t)与DEL的直观比较可见附录B的图C.1。最后，我们通过重写式(7)将DEL从单数字优化推广到浮点数优化：
L_DEL = H(p,g) + α ∑_{g_t ∈ V_d} u(t) · p̂(·|x_{<t})   (7)
其中H(p,g)现在表示为p̂(g)与目标标记g的组合，V_d是数字标记集，u(t)是权重，p̂(·|x_{<t})是第t个位置的非目标数字分布。更新后的H(p,g)公式为：
H(p,g) = -[p̂(g) · log p̂(g) + (1 - p̂(g)) · log(1 - p̂(g))]  (8)
其中p̂(g)是预测为目标标记g的条件概率（在所有标记上的归一化概率，即p(g)）。方程(8)本质上是在目标g上的二元交叉熵。然后我们将准则项重写为：
H(p,g) = BCE(p̂(g), 1)                                   (9)
其中BCE表示二元交叉熵。在式(7)的第二项中，u(t)是一个归一化权重因子，确保数字标记上的总累积权重准确反映数值距离。我们定义u(t) = 1/|V_d|，其中|V_d|=10是数字标记集的大小。这种平坦权重设置确保对每个数字标记的惩罚一致，避免距离偏差并减少过优化。此外，我们有α > 0控制每个标记的惩罚幅度。DIST2Loss中u(t)与DEL的直观比较可见附录B的图C.1。最后，我们通过重写式(7)将DEL从单数字优化推广到浮点数优化：
L_DEL = H(p,g) + α ∑_{g_t ∈ V_d} u(t) · p̂(·|x_{<t})   (7)
其中H(p,g)现在表示为p̂(g)与目标标记g的组合，V_d是数字标记集，u(t)是权重，p̂(·|x_{<t})是第t个位置的非目标数字分布。更新后的H(p,g)公式为：
H(p,g) = -[p̂(g) · log p̂(g) + (1 - p̂(g)) · log(1 - p̂(g))]  (8)
其中p̂(g)是预测为目标标记g的条件概率（在所有标记上的归一化概率，即p(g)）。方程(8)本质上是在目标g上的二元交叉熵。然后我们将准则项重写为：
H(p,g) = BCE(p̂(g), 1)                                   (9)
其中BCE表示二元交叉熵。在式(7)的第二项中，u(t)是一个归一化权重因子，确保数字标记上的总累积权重准确反映数值距离。我们定义u(t) = 1/|V_d|，其中|V_d|=10是数字标记集的大小。这种平坦权重设置确保对每个数字标记的惩罚一致，避免距离偏差并减少过优化。此外，我们有α > 0控制每个标记的惩罚幅度。DIST2Loss中u(t)与DEL的直观比较可见附录B的图C.1。最后，我们通过重写式(7)将DEL从单数字优化推广到浮点数优化：
L_DEL = H(p,g) + α ∑_{g_t ∈ V_d} u(t) · p̂(·|x_{<t})   (7)
其中H(p,g)现在表示为p̂(g)与目标标记g的组合，V_d是数字标记集，u(t)是权重，p̂(·|x_{<t})是第t个位置的非目标数字分布。更新后的H(p,g)公式为：
H(p,g) = -[p̂(g) · log p̂(g) + (1 - p̂(g)) · log(1 - p̂(g))]  (8)
其中p̂(g)是预测为目标标记g的条件概率（在所有标记上的归一化概率，即p(g)）。方程(8)本质上是在目标g上的二元交叉熵。然后我们将准则项重写为：
H(p,g) = BCE(p̂(g), 1)                                   (9)
其中BCE表示二元交叉熵。在式(7)的第二项中，u(t)是一个归一化权重因子，确保数字标记上的总累积权重准确反映数值距离。我们定义u(t) = 1/|V_d|，其中|V_d|=10是数字标记集的大小。这种平坦权重设置确保对每个数字标记的惩罚一致，避免距离偏差并减少过优化。此外，我们有α > 0控制每个标记的惩罚幅度。DIST2Loss中u(t)与DEL的直观比较可见附录B的图C.1。最后，我们通过重写式(7)将DEL从单数字优化推广到浮点数优化：
L_DEL = H(p,g) + α ∑_{g_t ∈ V_d} u(t) · p̂(·|x_{<t})   (7)
其中H(p,g)现在表示为p̂(g)与目标标记g的组合，V_d是数字标记集，u(t)是权重，p̂(·|x_{<t})是第t个位置的非目标数字分布。更新后的H(p,g)公式为：
H(p,g) = -[p̂(g) · log p̂(g) + (1 - p̂(g)) · log(1 - p̂(g))]  (8)
其中p̂(g)是预测为目标标记g的条件概率（在所有标记上的归一化概率，即p(g)）。方程(8)本质上是在目标g上的二元交叉熵。然后我们将准则项重写为：
H(p,g) = BCE(p̂(g), 1)                                   (9)
其中BCE表示二元交叉熵。在式(7)的第二项中，u(t)是一个归一化权重因子，确保数字标记上的总累积权重准确反映数值距离。我们定义u(t) = 1/|V_d|，其中|V_d|=10是数字标记集的大小。这种平坦权重设置确保对每个数字标记的惩罚一致，避免距离偏差并减少过优化。此外，我们有α > 0控制每个标记的惩罚幅度。DIST2Loss中u(t)与DEL的直观比较可见附录B的图C.1。最后，我们通过重写式(7)将DEL从单数字优化推广到浮点数优化：
L_DEL = H(p,g) + α ∑_{g_t ∈ V_d} u(t) · p̂(·|x_{<t})   (7)
其中H(p,g)现在表示为p̂(g)与目标标记g的组合，V_d是数字标记集，u(t)是权重，p̂(·|x_{<t})是第t个位置的非目标数字分布。更新后的H(p,g)公式为：
H(p,g) = -[p̂(g) · log p̂(g) + (1 - p̂(g)) · log(1 - p̂(g))]  (8)
其中p̂(g)是预测为目标标记g的条件概率（在所有标记上的归一化概率，即p(g)）。方程(8)本质上是在目标g上的二元交叉熵。然后我们将准则项重写为：
H(p,g) = BCE(p̂(g), 1)                                   (9)
其中BCE表示二元交叉熵。在式(7)的第二项中，u(t)是一个归一化权重因子，确保数字标记上的总累积权重准确反映数值距离。我们定义u(t) = 1/|V_d|，其中|V_d|=10是数字标记集的大小。这种平坦权重设置确保对每个数字标记的惩罚一致，避免距离偏差并减少过优化。此外，我们有α > 0控制每个标记的惩罚幅度。DIST2Loss中u(t)与DEL的直观比较可见附录B的图C.1。最后，我们通过重写式(7)将DEL从单数字优化推广到浮点数优化：
L_DEL = H(p,g) + α ∑_{g_t ∈ V_d} u(t) · p̂(·|x_{<t})   (7)
其中H(p,g)现在表示为p̂(g)与目标标记g的组合，V_d是数字标记集，u(t)是权重，p̂(·|x_{<t})是第t个位置的非目标数字分布。更新后的H(p,g)公式为：
H(p,g) = -[p̂(g) · log p̂(g) + (1 - p̂(g)) · log(1 - p̂(g))]  (8)
其中p̂(g)是预测为目标标记g的条件概率（在所有标记上的归一化概率，即p(g)）。方程(8)本质上是在目标g上的二元交叉熵。然后我们将准则项重写为：
H(p,g) = BCE(p̂(g), 1)                                   (9)
其中BCE表示二元交叉熵。在式(7)的第二项中，u(t)是一个归一化权重因子，确保数字标记上的总累积权重准确反映数值距离。我们定义u(t) = 1/|V_d|，其中|V_d|=10是数字标记集的大小。这种平坦权重设置确保对每个数字标记的惩罚一致，避免距离偏差并减少过优化。此外，我们有α > 0控制每个标记的惩罚幅度。DIST2Loss中u(t)与DEL的直观比较可见附录B的图C.1。最后，我们通过重写式(7)将DEL从单数字优化推广到浮点数优化：
L_DEL = H(p,g) + α ∑_{g_t ∈ V_d} u(t) · p̂(·|x_{<t})   (7)
其中H(p,g)现在表示为p̂(g)与目标标记g的组合，V_d是数字标记集，u(t)是权重，p̂(·|x_{<t})是第t个位置的非目标数字分布。更新后的H(p,g)公式为：
H(p,g) = -[p̂(g) · log p̂(g) + (1 - p̂(g)) · log(1 - p̂(g))]  (8)
其中p̂(g)是预测为目标标记g的条件概率（在所有标记上的归一化概率，即p(g)）。方程(8)本质上是在目标g上的二元交叉熵。然后我们将准则项重写为：
H(p,g) = BCE(p̂(g), 1)                                   (9)
其中BCE表示二元交叉熵。在式(7)的第二项中，u(t)是一个归一化权重因子，确保数字标记上的总累积权重准确反映数值距离。我们定义u(t) = 1/|V_d|，其中|V_d|=10是数字标记集的大小。这种平坦权重设置确保对每个数字标记的惩罚一致，避免距离偏差并减少过优化。此外，我们有α > 0控制每个标记的惩罚幅度。DIST2Loss中u(t)与DEL的直观比较可见附录B的图C.1。最后，我们通过重写式(7)将DEL从单数字优化推广到浮点数优化：
L_DEL = H(p,g) + α ∑_{g_t ∈ V_d} u(t) · p̂(·|x_{<t})   (7)
其中H(p,g)现在表示为p̂(g)与目标标记g的组合，V_d是数字标记集，u(t)是权重，p̂(·|x_{<t})是第t个位置的非目标数字分布。更新后的H(p,g)公式为：
H(p,g) = -[p̂(g) · log p̂(g) + (1 - p̂(g)) · log(1 - p̂(g))]  (8)
其中p̂(g)是预测为目标标记g的条件概率（在所有标记上的归一化概率，即p(g)）。方程(8)本质上是在目标g上的二元交叉熵。然后我们将准则项重写为：
H(p,g) = BCE(p̂(g), 1)                                   (9)
其中BCE表示二元交叉熵。在式(7)的第二项中，u(t)是一个归一化权重因子，确保数字标记上的总累积权重准确反映数值距离。我们定义u(t) = 1/|V_d|，其中|V_d|=10是数字标记集的大小。这种平坦权重设置确保对每个数字标记的惩罚一致，避免距离偏差并减少过优化。此外，我们有α > 0控制每个标记的惩罚幅度。DIST2Loss中u(t)与DEL的直观比较可见附录B的图C.1。最后，我们通过重写式(7)将DEL从单数字优化推广到浮点数优化：
L_DEL = H(p,g) + α ∑_{g_t ∈ V_d} u(t) · p̂(·|x_{<t})   (7)
其中H(p,g)现在表示为p̂(g)与目标标记g的组合，V_d是数字标记集，u(t)是权重，p̂(·|x_{<t})是第t个位置的非目标数字分布。更新后的H(p,g)公式为：
H(p,g) = -[p̂(g) · log p̂(g) + (1 - p̂(g)) · log(1 - p̂(g))]  (8)
其中p̂(g)是预测为目标标记g的条件概率（在所有标记上的归一化概率，即p(g)）。方程(8)本质上是在目标g上的二元交叉熵。然后我们将准则项重写为：
H(p,g) = BCE(p̂(g), 1)                                   (9)
其中BCE表示二元交叉熵。在式(7)的第二项中，u(t)是一个归一化权重因子，确保数字标记上的总累积权重准确反映数值距离。我们定义u(t) = 1/|V_d|，其中|V_d|=10是数字标记集的大小。这种平坦权重设置确保对每个数字标记的惩罚一致，避免距离偏差并减少过优化。此外，我们有α > 0控制每个标记的惩罚幅度。DIST2Loss中u(t)与DEL的直观比较可见附录B的图C.1。最后，我们通过重写式(7)将DEL从单数字优化推广到浮点数优化：
L_DEL = H(p,g) + α ∑_{g_t ∈ V_d} u(t) · p̂(·|x_{<t})   (7)
其中H(p,g)现在表示为p̂(g)与目标标记g的组合，V_d是数字标记集，u(t)是权重，p̂(·|x_{<t})是第t个位置的非目标数字分布。更新后的H(p,g)公式为：
H(p,g) = -[p̂(g) · log p̂(g) + (1 - p̂(g)) · log(1 - p̂(g))]  (8)
其中p̂(g)是预测为目标标记g的条件概率（在所有标记上的归一化概率，即p(g)）。方程(8)本质上是在目标g上的二元交叉熵。然后我们将准则项重写为：
H(p,g) = BCE(p̂(g), 1)                                   (9)
其中BCE表示二元交叉熵。在式(7)的第二项中，u(t)是一个归一化权重因子，确保数字标记上的总累积权重准确反映数值距离。我们定义u(t) = 1/|V_d|，其中|V_d|=10是数字标记集的大小。这种平坦权重设置确保对每个数字标记的惩罚一致，避免距离偏差并减少过优化。此外，我们有α > 0控制每个标记的惩罚幅度。DIST2Loss中u(t)与DEL的直观比较可见附录B的图C.1。最后，我们通过重写式(7)将DEL从单数字优化推广到浮点数优化：
L_DEL = H(p,g) + α ∑_{g_t ∈ V_d} u(t) · p̂(·|x_{<t})   (7)
其中H(p,g)现在表示为p̂(g)与目标标记g的组合，V_d是数字标记集，u(t)是权重，p̂(·|x_{<t})是第t个位置的非目标数字分布。更新后的H(p,g)公式为：
H(p,g) = -[p̂(g) · log p̂(g) + (1 - p̂(g)) · log(1 - p̂(g))]  (8)
其中p̂(g)是预测为目标标记g的条件概率（在所有标记上的归一化概率，即p(g)）。方程(8)本质上是在目标g上的二元交叉熵。然后我们将准则项重写为：
H(p,g) = BCE(p̂(g), 1)                                   (9)
其中BCE表示二元交叉熵。在式(7)的第二项中，u(t)是一个归一化权重因子，确保数字标记上的总累积权重准确反映数值距离。我们定义u(t) = 1/|V_d|，其中|V_d|=10是数字标记集的大小。这种平坦权重设置确保对每个数字标记的惩罚一致，避免距离偏差并减少过优化。此外，我们有α > 0控制每个标记的惩罚幅度。DIST2Loss中u(t)与DEL的直观比较可见附录B的图C.1。最后，我们通过重写式(7)将DEL从单数字优化推广到浮点数优化：
L_DEL = H(p,g) + α ∑_{g_t ∈ V_d} u(t) · p̂(·|x_{<t})   (7)
其中H(p,g)现在表示为p̂(g)与目标标记g的组合，V_d是数字标记集，u(t)是权重，p̂(·|x_{<t})是第t个位置的非目标数字分布。更新后的H(p,g)公式为：
H(p,g) = -[p̂(g) · log p̂(g) + (1 - p̂(g)) · log(1 - p̂(g))]  (8)
其中p̂(g)是预测为目标标记g的条件概率（在所有标记上的归一化概率，即p(g)）。方程(8)本质上是在目标g上的二元交叉熵。然后我们将准则项重写为：
H(p,g) = BCE(p̂(g), 1)                                   (9)
其中BCE表示二元交叉熵。在式(7)的第二项中，u(t)是一个归一化权重因子，确保数字标记上的总累积权重准确反映数值距离。我们定义u(t) = 1/|V_d|，其中|V_d|=10是数字标记集的大小。这种平坦权重设置确保对每个数字标记的惩罚一致，避免距离偏差并减少过优化。此外，我们有α > 0控制每个标记的惩罚幅度。DIST2Loss中u(t)与DEL的直观比较可见附录B的图C.1。最后，我们通过重写式(7)将DEL从单数字优化推广到浮点数优化：
L_DEL = H(p,g) + α ∑_{g_t ∈ V_d} u(t) · p̂(·|x_{<
DEL：大型语言模型数值学习的数字熵损失

相似文章

LEAD：用于大型语言模型的长度高效自适应与动态推理

[论文] 大语言模型的统计无损量化

基于熵-KL散度的令牌掩码：一种用于大型语言模型选择性微调的新方法

大规模下的Hidden Decoding: 大型语言模型的潜在计算扩展

选择性优势熵自适应范围GRPO：用于语言模型高效强化学习的非对称令牌级折扣

提交意见反馈