LLM作为噪声通道:模型容量与缩放定律的香农视角
摘要
该论文提出了一种香农缩放定律,将LLM训练建模为通过噪声通道的信息传输,解释了灾难性过训练和量化退化等非单调性能现象,并展示了相比传统缩放定律更优越的预测精度。
查看缓存全文
缓存时间: 2026/05/25 02:35
论文页面 - LLMs作为噪声信道:基于香农理论的模型容量与缩放定律
来源:https://huggingface.co/papers/2605.23901
摘要
香农缩放定律将LLM训练建模为通过噪声信道的信息传输,通过信噪比相互作用解释了非单调性能现象,并展现出优于传统缩放定律的预测准确性。
现有的用于大语言模型的缩放定律(https://huggingface.co/papers?q=scaling%20laws)主要是单调幂律,无法解释新兴的非单调现象,例如灾难性过训练(https://huggingface.co/papers?q=catastrophic%20overtraining)和量化导致的性能退化(https://huggingface.co/papers?q=quantization-induced%20degradation),即在计算量增加的情况下性能反而下降。我们提出香农缩放定律,这是一个统一的理论框架,将LLM训练(https://huggingface.co/papers?q=LLM%20training)建模为通过噪声信道(https://huggingface.co/papers?q=noisy%20channel)的信息传输(https://huggingface.co/papers?q=information%20transmission),其基础是香农-哈特利定理(https://huggingface.co/papers?q=Shannon-Hartley%20theorem)。通过将模型参数映射到信道带宽,训练token映射到信号功率,我们的公式明确捕捉了学习信号与内在噪声之间的相互作用。这一视角揭示了LLM的基本香农容量:在缩放模型规模或数据量时,若不保持足够的信噪比(https://huggingface.co/papers?q=signal-to-noise%20ratio)(SNR),噪声将不可避免地放大,从而从单调改进转变为U形性能退化。我们通过在Pythia(https://huggingface.co/papers?q=Pythia)和OLMo2(https://huggingface.co/papers?q=OLMo2)上施加扰动(包括高斯噪声(https://huggingface.co/papers?q=Gaussian%20noise)、量化和在数学、问答及代码任务上的有监督微调(https://huggingface.co/papers?q=supervised%20fine-tuning))来验证我们的理论。香农缩放定律始终优于经典缩放定律(https://huggingface.co/papers?q=scaling%20laws)和近期针对扰动敏感的定律,取得了优异的R²分数,并准确捕捉了先前方法遗漏的损失盆地(https://huggingface.co/papers?q=loss%20basins)。它还能进行外推:在≤6.9B参数的Pythia(https://huggingface.co/papers?q=Pythia)模型上使用≤180B token进行拟合后,它能预测未见过的12B模型在最多307B token下的表现,总R²=0.847,而单调基线模型则完全失效。
查看arXiv页面(https://arxiv.org/abs/2605.23901)查看PDF(https://arxiv.org/pdf/2605.23901)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.23901)
在您的智能体中获取本论文:
hf papers read 2605.23901
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本文的模型0
没有模型链接到本论文
请在模型 README.md 中引用 arxiv.org/abs/2605.23901 以从此页面链接。
引用本文的数据集0
没有数据集链接到本论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.23901 以从此页面链接。
引用本文的Space0
没有Space链接到本论文
请在Space README.md 中引用 arxiv.org/abs/2605.23901 以从此页面链接。
包含本文的收藏集0
没有收藏集包含本论文
请将本论文添加到一个收藏集(https://huggingface.co/new-collection)中以从此页面链接。
相似文章
训练利润最优LLM的理论
本文提出了一种经济模型,结合缩放定律与微观经济学理论,分析大语言模型在利润最优情况下的训练策略,权衡模型质量、训练成本与硬件效率等因素。
LLM智能体系统中技能的规模化定律
本文识别了LLM智能体系统中技能库的两个耦合规模化定律:路由准确率随库大小呈对数衰减,执行动态表现出救援效应。这些定律在15个模型和超过百万次决策中得到验证,且定律指导的优化显著提升了性能。
采样更多,获得更少:校准是大语言模型多样性的瓶颈
本文引入了一种有效性-多样性框架,将大语言模型中的多样性崩溃归因于解码过程中的排序和形状校准偏差,并在 14 种语言模型上进行了验证。
从信号退化到计算崩溃:揭示LLM量化的两种失效模式
研究者发现激进LLM量化存在两种截然不同的失效模式——信号退化与计算崩溃,并证明无需训练的修复手段仅能缓解前者,表明超低比特模型需进行结构性重建。
仅靠拟合是不够的:极低量化大语言模型中的平滑性
本文探讨了极低量化大语言模型中的平滑性退化问题,认为除了数值精度外,保持平滑性对于维持模型性能至关重要。