@eisokant:来自@ArkadiiBessonov关于我们预训练团队的一篇精彩博客文章!
摘要
一条推文分享了一篇博客文章,讨论了LLM预训练中FP8的三种方法:per-tensor、blockwise和MXFP8,重点介绍了缩放因子的附加方式。
查看缓存全文
缓存时间: 2026/06/28 04:00
来自 @ArkadiiBessonov 关于我们预训练团队的精彩博文!
Arkadii (@ArkadiiBessonov): LLM 预训练中实现 FP8 的三种主要方式——它们的主要区别在于缩放因子的附加方式。
逐张量(per-tensor)、逐块(blockwise)和 MXFP8。
为什么预训练在这方面有如此多的结构:前向 + 反向传播包含 3 个矩阵乘法(Fprop、Dgrad、Wgrad),涉及 3 种张量角色(权重、
相似文章
@ArkadiiBessonov: LLM预训练中使用FP8的三种主要方法——区别主要在于scale的附加方式。per-tens…
解释了LLM预训练中FP8缩放的三种主要方法——per-tensor、blockwise和MXFP8——重点关注scale的附加方式,并根据scale必须在matmul的收缩维度上保持恒定这一约束,推导出tile几何形状。
重新思考LLM FP4预训练中的收缩偏差:几何起源、系统性影响与UFP4方案
本文识别了LLM预训练中非均匀FP4量化格式的一个根本限制(收缩偏差),并提出了UFP4,一种优于现有基于E2M1方法的统一4位训练方案。
@nrehiew_:献给视觉学习者
一条推文线程,回顾了论文《使用NVFP4预训练大型语言模型》并讨论了NVFP4预训练,特别是针对NVIDIA Blackwell。
@harshbhatt7585: https://x.com/harshbhatt7585/status/2063593933314113587
作者分享了从头训练一个160M参数大语言模型的经验,尝试了多种架构,如多Token预测和分层推理模型。他强调快速迭代、简化思路以及理解架构有效原因的重要性。
@yukangchen_: 很高兴分享我们的新博客:利用并行化扩展视频训练 https://research.nvidia.com/labs/eai/blogs/scali…
这篇来自NVIDIA Research的博客讨论了序列并行化如何扩展长视频训练系统,既支持理解任务也支持生成任务,解决了在多GPU上适配超长视频序列的挑战。