重新思考LLM FP4预训练中的收缩偏差：几何起源、系统性影响与UFP4方案

Hugging Face Daily Papers 2026/06/18 00:00 论文

llm fp4 quantization pretraining shrinkage-bias rht training-recipe

摘要

本文识别了LLM预训练中非均匀FP4量化格式的一个根本限制（收缩偏差），并提出了UFP4，一种优于现有基于E2M1方法的统一4位训练方案。

FP4训练有望大幅降低LLM预训练的内存和计算成本，然而当前的FP4硬件路径和方案，包括NVIDIA Blackwell/Rubin级系统和AMD MI350系列GPU，仍以E2M1数据元素为中心。在本研究中，我们识别出这一选择的一个根本限制：诸如E2M1等非均匀格式固有地遭受收缩偏差，这是一种由其可表示区间的几何不对称性导致的系统性负舍入误差。我们表明，这种偏差在层间以乘法方式累积，并通过随机哈达玛变换（RHT）被放大，为现有基于E2M1的FP4方案中观察到的训练不稳定性提供了统一解释。相比之下，均匀网格（E1M2/INT4）绕过了这种网格几何误差，并更好地将RHT带来的桶利用率提升转化为更高的量化质量。基于这一发现，我们提出了UFP4，一种统一4位训练方案，该方案将RHT应用于所有三个训练GEMM，同时将随机舍入仅限制在dY上。在密集1.5B、MoE 7.9B和MoE 124B的长期预训练中，UFP4持续实现了比强E2M1基线更低的BF16相对损失退化，这得到了缩放定律分析和消融研究的支持。我们的结果表明，未来的加速器应支持E1M2/INT4风格的统一4位网格，作为与E2M1并列的一等训练原语。

查看原文

查看缓存全文

缓存时间: 2026/06/20 14:27

论文页面 - 重新思考LLM FP4预训练中的收缩偏差：几何起源、系统性影响与UFP4方案

来源：https://huggingface.co/papers/2606.20381 作者：

摘要

基于RHT量化的统一4比特训练通过消除收缩偏差并提升训练稳定性，在大语言模型架构上全面优于基于E2M1的方法。

FP4训练（https://huggingface.co/papers?q=FP4%20training）有望大幅降低LLM预训练的内存和计算成本，然而当前的FP4硬件路径和方案（包括NVIDIA Blackwell/Rubin级系统以及AMD MI350系列GPU）仍以E2M1（https://huggingface.co/papers?q=E2M1）数据类型为核心。在本研究中，我们发现了这一选择的基本局限性：E2M1（https://huggingface.co/papers?q=E2M1）等非均匀格式固有地存在Shrinkage Bias（https://huggingface.co/papers?q=Shrinkage%20Bias）（收缩偏差），这是一种由其可表示桶的几何不对称性导致的系统性负向舍入误差。我们表明，这种偏差在层间以乘法方式累积，并会被Random Hadamard Transform（https://huggingface.co/papers?q=Random%20Hadamard%20Transform）（RHT）放大，为现有基于E2M1（https://huggingface.co/papers?q=E2M1）的FP4方案中观测到的training instability（https://huggingface.co/papers?q=training%20instability）提供了统一解释。相反，uniform grids（https://huggingface.co/papers?q=uniform%20grids）（E1M2（https://huggingface.co/papers?q=E1M2）/INT4（https://huggingface.co/papers?q=INT4））绕过了这种网格几何误差，并能更好地将RHT带来的桶利用率提升转化为更高的quantization quality（https://huggingface.co/papers?q=quantization%20quality）。基于这一发现，我们提出了UFP4，一种统一4比特训练方案，它将RHT应用于所有三个训练GEMMs（https://huggingface.co/papers?q=GEMMs），同时将随机舍入限制在dY上。在Dense 1.5B、MoE 7.9B和MoE 124B的长期预训练中，UFP4始终实现了比强E2M1（https://huggingface.co/papers?q=E2M1）基线更低的BF16相对损失退化，这得到了scaling-law analysis（https://huggingface.co/papers?q=scaling-law%20analysis）和ablation studies（https://huggingface.co/papers?q=ablation%20studies）的支持。我们的结果表明，未来的加速器应将E1M2（https://huggingface.co/papers?q=E1M2）/INT4（https://huggingface.co/papers?q=INT4）风格的统一4比特网格作为与E2M1（https://huggingface.co/papers?q=E2M1）同等的一等训练原语来支持。

查看arXiv页面（https://arxiv.org/abs/2606.20381）查看PDF（https://arxiv.org/pdf/2606.20381）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.20381）

在你的agent中获取此论文：

hf papers read 2606.20381

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

无模型链接到此论文

请在模型README.md中引用arxiv.org/abs/2606.20381以从此页面链接。

引用此论文的数据集 0

无数据集链接到此论文

请在数据集README.md中引用arxiv.org/abs/2606.20381以从此页面链接。

引用此论文的Space 0

无Space链接到此论文

请在Space README.md中引用arxiv.org/abs/2606.20381以从此页面链接。

包含此论文的收藏 0

无收藏包含此论文

请将此论文添加到一个收藏（https://huggingface.co/new-collection）以从此页面链接。

重新思考LLM FP4预训练中的收缩偏差：几何起源、系统性影响与UFP4方案

论文页面 - 重新思考LLM FP4预训练中的收缩偏差：几何起源、系统性影响与UFP4方案

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的Space 0

包含此论文的收藏 0

相似文章

分解LLM强化学习中MXFP4量化误差：可约简偏差、可恢复死区与不可约底限

量化破坏对齐：压缩大语言模型中偏见在不同模型与精度下的涌现

持续LLM升级循环：一种用于从稠密到稀疏LLM的预测器门控按组稀疏训练方案

InfoQuant：为低比特大语言模型量化塑造激活分布

DeepSeek V4 完整论文发布：FP4 QAT 技术细节与训练稳定性技巧 [D]

提交意见反馈