LLM作为噪声通道:模型容量与缩放定律的香农视角

Hugging Face Daily Papers 论文

摘要

该论文提出了一种香农缩放定律,将LLM训练建模为通过噪声通道的信息传输,解释了灾难性过训练和量化退化等非单调性能现象,并展示了相比传统缩放定律更优越的预测精度。

现有的大型语言模型(LLM)缩放定律主要是单调幂律,无法解释新兴的非单调现象,例如灾难性过训练和量化退化——这些现象中,尽管计算量增加,性能反而下降。 我们提出香农缩放定律,这是一个统一的理论框架,基于香农-哈特利定理,将LLM训练建模为通过噪声通道的信息传输。通过将模型参数映射到通道带宽,训练令牌映射到信号功率,我们的公式明确捕获了学习信号与内在噪声之间的交互。这一视角揭示了LLM的一个基本香农容量:在未保持足够信噪比(SNR)的情况下扩展模型规模或数据,必然会放大噪声,导致从单调改进到U形性能退化的转变。 我们通过在Pythia和OLMo2上进行的实验验证了该理论,实验包括高斯噪声、量化以及在数学、问答和代码任务上的监督微调等扰动。香农缩放定律始终优于经典缩放定律和近期提出的对扰动敏感的定律,取得了较高的R²分数,并准确捕捉了先前方法遗漏的损失盆地。它还具有外推能力:在不超过6.9B参数的Pythia模型和不超过180B令牌的数据上拟合后,可预测未见过的12B模型在多达307B令牌下的表现,汇总R²达到0.847,而单调基线则完全失效。
查看原文
查看缓存全文

缓存时间: 2026/05/25 02:35

论文页面 - LLMs作为噪声信道:基于香农理论的模型容量与缩放定律

来源:https://huggingface.co/papers/2605.23901

摘要

香农缩放定律将LLM训练建模为通过噪声信道的信息传输,通过信噪比相互作用解释了非单调性能现象,并展现出优于传统缩放定律的预测准确性。

现有的用于大语言模型的缩放定律(https://huggingface.co/papers?q=scaling%20laws)主要是单调幂律,无法解释新兴的非单调现象,例如灾难性过训练(https://huggingface.co/papers?q=catastrophic%20overtraining)和量化导致的性能退化(https://huggingface.co/papers?q=quantization-induced%20degradation),即在计算量增加的情况下性能反而下降。我们提出香农缩放定律,这是一个统一的理论框架,将LLM训练(https://huggingface.co/papers?q=LLM%20training)建模为通过噪声信道(https://huggingface.co/papers?q=noisy%20channel)的信息传输(https://huggingface.co/papers?q=information%20transmission),其基础是香农-哈特利定理(https://huggingface.co/papers?q=Shannon-Hartley%20theorem)。通过将模型参数映射到信道带宽,训练token映射到信号功率,我们的公式明确捕捉了学习信号与内在噪声之间的相互作用。这一视角揭示了LLM的基本香农容量:在缩放模型规模或数据量时,若不保持足够的信噪比(https://huggingface.co/papers?q=signal-to-noise%20ratio)(SNR),噪声将不可避免地放大,从而从单调改进转变为U形性能退化。我们通过在Pythia(https://huggingface.co/papers?q=Pythia)和OLMo2(https://huggingface.co/papers?q=OLMo2)上施加扰动(包括高斯噪声(https://huggingface.co/papers?q=Gaussian%20noise)、量化和在数学、问答及代码任务上的有监督微调(https://huggingface.co/papers?q=supervised%20fine-tuning))来验证我们的理论。香农缩放定律始终优于经典缩放定律(https://huggingface.co/papers?q=scaling%20laws)和近期针对扰动敏感的定律,取得了优异的R²分数,并准确捕捉了先前方法遗漏的损失盆地(https://huggingface.co/papers?q=loss%20basins)。它还能进行外推:在≤6.9B参数的Pythia(https://huggingface.co/papers?q=Pythia)模型上使用≤180B token进行拟合后,它能预测未见过的12B模型在最多307B token下的表现,总R²=0.847,而单调基线模型则完全失效。

查看arXiv页面(https://arxiv.org/abs/2605.23901)查看PDF(https://arxiv.org/pdf/2605.23901)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.23901)

在您的智能体中获取本论文:

hf papers read 2605.23901

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型0

没有模型链接到本论文

请在模型 README.md 中引用 arxiv.org/abs/2605.23901 以从此页面链接。

引用本文的数据集0

没有数据集链接到本论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.23901 以从此页面链接。

引用本文的Space0

没有Space链接到本论文

请在Space README.md 中引用 arxiv.org/abs/2605.23901 以从此页面链接。

包含本文的收藏集0

没有收藏集包含本论文

请将本论文添加到一个收藏集(https://huggingface.co/new-collection)中以从此页面链接。

相似文章

训练利润最优LLM的理论

arXiv cs.LG

本文提出了一种经济模型,结合缩放定律与微观经济学理论,分析大语言模型在利润最优情况下的训练策略,权衡模型质量、训练成本与硬件效率等因素。

LLM智能体系统中技能的规模化定律

arXiv cs.CL

本文识别了LLM智能体系统中技能库的两个耦合规模化定律:路由准确率随库大小呈对数衰减,执行动态表现出救援效应。这些定律在15个模型和超过百万次决策中得到验证,且定律指导的优化显著提升了性能。