重新思考LLM FP4预训练中的收缩偏差:几何起源、系统性影响与UFP4方案
摘要
本文识别了LLM预训练中非均匀FP4量化格式的一个根本限制(收缩偏差),并提出了UFP4,一种优于现有基于E2M1方法的统一4位训练方案。
查看缓存全文
缓存时间: 2026/06/20 14:27
论文页面 - 重新思考LLM FP4预训练中的收缩偏差:几何起源、系统性影响与UFP4方案
来源:https://huggingface.co/papers/2606.20381 作者:
,
,
,
,
,
,
,
,
,
,
摘要
基于RHT量化的统一4比特训练通过消除收缩偏差并提升训练稳定性,在大语言模型架构上全面优于基于E2M1的方法。
FP4训练(https://huggingface.co/papers?q=FP4%20training)有望大幅降低LLM预训练的内存和计算成本,然而当前的FP4硬件路径和方案(包括NVIDIA Blackwell/Rubin级系统以及AMD MI350系列GPU)仍以E2M1(https://huggingface.co/papers?q=E2M1)数据类型为核心。在本研究中,我们发现了这一选择的基本局限性:E2M1(https://huggingface.co/papers?q=E2M1)等非均匀格式固有地存在Shrinkage Bias(https://huggingface.co/papers?q=Shrinkage%20Bias)(收缩偏差),这是一种由其可表示桶的几何不对称性导致的系统性负向舍入误差。我们表明,这种偏差在层间以乘法方式累积,并会被Random Hadamard Transform(https://huggingface.co/papers?q=Random%20Hadamard%20Transform)(RHT)放大,为现有基于E2M1(https://huggingface.co/papers?q=E2M1)的FP4方案中观测到的training instability(https://huggingface.co/papers?q=training%20instability)提供了统一解释。相反,uniform grids(https://huggingface.co/papers?q=uniform%20grids)(E1M2(https://huggingface.co/papers?q=E1M2)/INT4(https://huggingface.co/papers?q=INT4))绕过了这种网格几何误差,并能更好地将RHT带来的桶利用率提升转化为更高的quantization quality(https://huggingface.co/papers?q=quantization%20quality)。基于这一发现,我们提出了UFP4,一种统一4比特训练方案,它将RHT应用于所有三个训练GEMMs(https://huggingface.co/papers?q=GEMMs),同时将随机舍入限制在dY上。在Dense 1.5B、MoE 7.9B和MoE 124B的长期预训练中,UFP4始终实现了比强E2M1(https://huggingface.co/papers?q=E2M1)基线更低的BF16相对损失退化,这得到了scaling-law analysis(https://huggingface.co/papers?q=scaling-law%20analysis)和ablation studies(https://huggingface.co/papers?q=ablation%20studies)的支持。我们的结果表明,未来的加速器应将E1M2(https://huggingface.co/papers?q=E1M2)/INT4(https://huggingface.co/papers?q=INT4)风格的统一4比特网格作为与E2M1(https://huggingface.co/papers?q=E2M1)同等的一等训练原语来支持。
查看arXiv页面(https://arxiv.org/abs/2606.20381)查看PDF(https://arxiv.org/pdf/2606.20381)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.20381)
在你的agent中获取此论文:
hf papers read 2606.20381
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
无模型链接到此论文
请在模型README.md中引用arxiv.org/abs/2606.20381以从此页面链接。
引用此论文的数据集 0
无数据集链接到此论文
请在数据集README.md中引用arxiv.org/abs/2606.20381以从此页面链接。
引用此论文的Space 0
无Space链接到此论文
请在Space README.md中引用arxiv.org/abs/2606.20381以从此页面链接。
包含此论文的收藏 0
无收藏包含此论文
请将此论文添加到一个收藏(https://huggingface.co/new-collection)以从此页面链接。
相似文章
分解LLM强化学习中MXFP4量化误差:可约简偏差、可恢复死区与不可约底限
本文证明了MXFP4量化误差可分解为三个加性分量——比例偏差、死区截断和网格噪声——并提出了针对性修正方法,能够在LLM强化学习后训练中,使Qwen2.5-3B的BF16精度恢复至0.7个百分点以内,Qwen3-30B-A3B-Base恢复至3.0个百分点以内。
量化破坏对齐:压缩大语言模型中偏见在不同模型与精度下的涌现
本文研究了训练后量化如何在指令调优的大语言模型中引入新偏见,发现3位精度导致6-21%之前无偏见的项目发展出刻板印象,而像困惑度这样的标准指标未能检测到这种退化。
持续LLM升级循环:一种用于从稠密到稀疏LLM的预测器门控按组稀疏训练方案
本文提出了一种用于大语言模型的从稠密到稀疏的持续训练方法,采用预测器门控的按组稀疏性实现4倍FFN稀疏度,并在Qwen2.5-8B上通过长上下文训练进行了验证。
InfoQuant:为低比特大语言模型量化塑造激活分布
InfoQuant 提出了一种无需训练的方法——峰值抑制正交变换(PSOT),用于重塑低比特大语言模型量化中的激活分布,在 W4A4KV4 设置下保留了 97% 的浮点精度,并优于之前的 PTQ 方法。
DeepSeek V4 完整论文发布:FP4 QAT 技术细节与训练稳定性技巧 [D]
DeepSeek 发布了完整的 V4 论文,详细介绍了 FP4 量化感知训练、MoE 训练稳定性技巧(预判路由与 SwiGLU 截断),以及用于 RLHF 的生成式奖励模型,实现了显著的效率提升——V4-Flash 在 100 万上下文长度下仅需 V3.2 的 10% FLOPs 和 7% 的 KV 缓存。