重新思考LLM FP4预训练中的收缩偏差:几何起源、系统性影响与UFP4方案

Hugging Face Daily Papers 论文

摘要

本文识别了LLM预训练中非均匀FP4量化格式的一个根本限制(收缩偏差),并提出了UFP4,一种优于现有基于E2M1方法的统一4位训练方案。

FP4训练有望大幅降低LLM预训练的内存和计算成本,然而当前的FP4硬件路径和方案,包括NVIDIA Blackwell/Rubin级系统和AMD MI350系列GPU,仍以E2M1数据元素为中心。在本研究中,我们识别出这一选择的一个根本限制:诸如E2M1等非均匀格式固有地遭受收缩偏差,这是一种由其可表示区间的几何不对称性导致的系统性负舍入误差。我们表明,这种偏差在层间以乘法方式累积,并通过随机哈达玛变换(RHT)被放大,为现有基于E2M1的FP4方案中观察到的训练不稳定性提供了统一解释。相比之下,均匀网格(E1M2/INT4)绕过了这种网格几何误差,并更好地将RHT带来的桶利用率提升转化为更高的量化质量。基于这一发现,我们提出了UFP4,一种统一4位训练方案,该方案将RHT应用于所有三个训练GEMM,同时将随机舍入仅限制在dY上。在密集1.5B、MoE 7.9B和MoE 124B的长期预训练中,UFP4持续实现了比强E2M1基线更低的BF16相对损失退化,这得到了缩放定律分析和消融研究的支持。我们的结果表明,未来的加速器应支持E1M2/INT4风格的统一4位网格,作为与E2M1并列的一等训练原语。
查看原文
查看缓存全文

缓存时间: 2026/06/20 14:27

论文页面 - 重新思考LLM FP4预训练中的收缩偏差:几何起源、系统性影响与UFP4方案

来源:https://huggingface.co/papers/2606.20381 作者:

,

,

,

,

,

,

,

,

,

,

摘要

基于RHT量化的统一4比特训练通过消除收缩偏差并提升训练稳定性,在大语言模型架构上全面优于基于E2M1的方法。

FP4训练(https://huggingface.co/papers?q=FP4%20training)有望大幅降低LLM预训练的内存和计算成本,然而当前的FP4硬件路径和方案(包括NVIDIA Blackwell/Rubin级系统以及AMD MI350系列GPU)仍以E2M1(https://huggingface.co/papers?q=E2M1)数据类型为核心。在本研究中,我们发现了这一选择的基本局限性:E2M1(https://huggingface.co/papers?q=E2M1)等非均匀格式固有地存在Shrinkage Bias(https://huggingface.co/papers?q=Shrinkage%20Bias)(收缩偏差),这是一种由其可表示桶的几何不对称性导致的系统性负向舍入误差。我们表明,这种偏差在层间以乘法方式累积,并会被Random Hadamard Transform(https://huggingface.co/papers?q=Random%20Hadamard%20Transform)(RHT)放大,为现有基于E2M1(https://huggingface.co/papers?q=E2M1)的FP4方案中观测到的training instability(https://huggingface.co/papers?q=training%20instability)提供了统一解释。相反,uniform grids(https://huggingface.co/papers?q=uniform%20grids)(E1M2(https://huggingface.co/papers?q=E1M2)/INT4(https://huggingface.co/papers?q=INT4))绕过了这种网格几何误差,并能更好地将RHT带来的桶利用率提升转化为更高的quantization quality(https://huggingface.co/papers?q=quantization%20quality)。基于这一发现,我们提出了UFP4,一种统一4比特训练方案,它将RHT应用于所有三个训练GEMMs(https://huggingface.co/papers?q=GEMMs),同时将随机舍入限制在dY上。在Dense 1.5B、MoE 7.9B和MoE 124B的长期预训练中,UFP4始终实现了比强E2M1(https://huggingface.co/papers?q=E2M1)基线更低的BF16相对损失退化,这得到了scaling-law analysis(https://huggingface.co/papers?q=scaling-law%20analysis)和ablation studies(https://huggingface.co/papers?q=ablation%20studies)的支持。我们的结果表明,未来的加速器应将E1M2(https://huggingface.co/papers?q=E1M2)/INT4(https://huggingface.co/papers?q=INT4)风格的统一4比特网格作为与E2M1(https://huggingface.co/papers?q=E2M1)同等的一等训练原语来支持。

查看arXiv页面(https://arxiv.org/abs/2606.20381)查看PDF(https://arxiv.org/pdf/2606.20381)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.20381)

在你的agent中获取此论文:

hf papers read 2606.20381

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

无模型链接到此论文

请在模型README.md中引用arxiv.org/abs/2606.20381以从此页面链接。

引用此论文的数据集 0

无数据集链接到此论文

请在数据集README.md中引用arxiv.org/abs/2606.20381以从此页面链接。

引用此论文的Space 0

无Space链接到此论文

请在Space README.md中引用arxiv.org/abs/2606.20381以从此页面链接。

包含此论文的收藏 0

无收藏包含此论文

请将此论文添加到一个收藏(https://huggingface.co/new-collection)以从此页面链接。

相似文章

InfoQuant:为低比特大语言模型量化塑造激活分布

arXiv cs.LG

InfoQuant 提出了一种无需训练的方法——峰值抑制正交变换(PSOT),用于重塑低比特大语言模型量化中的激活分布,在 W4A4KV4 设置下保留了 97% 的浮点精度,并优于之前的 PTQ 方法。

DeepSeek V4 完整论文发布:FP4 QAT 技术细节与训练稳定性技巧 [D]

Reddit r/MachineLearning

DeepSeek 发布了完整的 V4 论文,详细介绍了 FP4 量化感知训练、MoE 训练稳定性技巧(预判路由与 SwiGLU 截断),以及用于 RLHF 的生成式奖励模型,实现了显著的效率提升——V4-Flash 在 100 万上下文长度下仅需 V3.2 的 10% FLOPs 和 7% 的 KV 缓存。