@eisokant:来自@ArkadiiBessonov关于我们预训练团队的一篇精彩博客文章!

X AI KOLs Timeline 新闻

摘要

一条推文分享了一篇博客文章,讨论了LLM预训练中FP8的三种方法:per-tensor、blockwise和MXFP8,重点介绍了缩放因子的附加方式。

来自@ArkadiiBessonov关于我们预训练团队的一篇精彩博客文章!
查看原文
查看缓存全文

缓存时间: 2026/06/28 04:00

来自 @ArkadiiBessonov 关于我们预训练团队的精彩博文!

Arkadii (@ArkadiiBessonov): LLM 预训练中实现 FP8 的三种主要方式——它们的主要区别在于缩放因子的附加方式。

逐张量(per-tensor)、逐块(blockwise)和 MXFP8。

为什么预训练在这方面有如此多的结构:前向 + 反向传播包含 3 个矩阵乘法(Fprop、Dgrad、Wgrad),涉及 3 种张量角色(权重、

相似文章

@nrehiew_:献给视觉学习者

X AI KOLs Timeline

一条推文线程,回顾了论文《使用NVFP4预训练大型语言模型》并讨论了NVFP4预训练,特别是针对NVIDIA Blackwell。