@eisokant:来自@ArkadiiBessonov关于我们预训练团队的一篇精彩博客文章!
摘要
一条推文分享了一篇博客文章,讨论了LLM预训练中FP8的三种方法:per-tensor、blockwise和MXFP8,重点介绍了缩放因子的附加方式。
查看缓存全文
缓存时间: 2026/06/28 04:00
来自 @ArkadiiBessonov 关于我们预训练团队的精彩博文!
Arkadii (@ArkadiiBessonov): LLM 预训练中实现 FP8 的三种主要方式——它们的主要区别在于缩放因子的附加方式。
逐张量(per-tensor)、逐块(blockwise)和 MXFP8。
为什么预训练在这方面有如此多的结构:前向 + 反向传播包含 3 个矩阵乘法(Fprop、Dgrad、Wgrad),涉及 3 种张量角色(权重、
相似文章
@ArkadiiBessonov: LLM预训练中使用FP8的三种主要方法——区别主要在于scale的附加方式。per-tens…
解释了LLM预训练中FP8缩放的三种主要方法——per-tensor、blockwise和MXFP8——重点关注scale的附加方式,并根据scale必须在matmul的收缩维度上保持恒定这一约束,推导出tile几何形状。
@AaronWeiHuang:我们最新博客探讨了FP4如何从压缩工具演变为训练和推理的实用基础方案,涵盖……
NVIDIA的博客详细介绍了FP4(配合NVFP4格式和Blackwell硬件)如何从一种压缩技巧演变为训练和推理的实用基础方案,涵盖LLM和扩散模型,并实现了接近16位的精度。
重新思考LLM FP4预训练中的收缩偏差:几何起源、系统性影响与UFP4方案
本文识别了LLM预训练中非均匀FP4量化格式的一个根本限制(收缩偏差),并提出了UFP4,一种优于现有基于E2M1方法的统一4位训练方案。
@nrehiew_:献给视觉学习者
一条推文线程,回顾了论文《使用NVFP4预训练大型语言模型》并讨论了NVFP4预训练,特别是针对NVIDIA Blackwell。
@harshbhatt7585: https://x.com/harshbhatt7585/status/2063593933314113587
作者分享了从头训练一个160M参数大语言模型的经验,尝试了多种架构,如多Token预测和分层推理模型。他强调快速迭代、简化思路以及理解架构有效原因的重要性。