@eisokant：来自@ArkadiiBessonov关于我们预训练团队的一篇精彩博客文章！

X AI KOLs Timeline 2026/06/27 12:10 新闻

fp8 llm-pretraining blog-post scale

摘要

一条推文分享了一篇博客文章，讨论了LLM预训练中FP8的三种方法：per-tensor、blockwise和MXFP8，重点介绍了缩放因子的附加方式。

来自@ArkadiiBessonov关于我们预训练团队的一篇精彩博客文章！

查看原文

查看缓存全文

缓存时间: 2026/06/28 04:00

来自 @ArkadiiBessonov 关于我们预训练团队的精彩博文！

Arkadii (@ArkadiiBessonov): LLM 预训练中实现 FP8 的三种主要方式——它们的主要区别在于缩放因子的附加方式。

逐张量（per-tensor）、逐块（blockwise）和 MXFP8。

为什么预训练在这方面有如此多的结构：前向 + 反向传播包含 3 个矩阵乘法（Fprop、Dgrad、Wgrad），涉及 3 种张量角色（权重、

相似文章

@ArkadiiBessonov: LLM预训练中使用FP8的三种主要方法——区别主要在于scale的附加方式。per-tens…

X AI KOLs Timeline

解释了LLM预训练中FP8缩放的三种主要方法——per-tensor、blockwise和MXFP8——重点关注scale的附加方式，并根据scale必须在matmul的收缩维度上保持恒定这一约束，推导出tile几何形状。

重新思考LLM FP4预训练中的收缩偏差：几何起源、系统性影响与UFP4方案

Hugging Face Daily Papers

本文识别了LLM预训练中非均匀FP4量化格式的一个根本限制（收缩偏差），并提出了UFP4，一种优于现有基于E2M1方法的统一4位训练方案。

@nrehiew_：献给视觉学习者

X AI KOLs Timeline

一条推文线程，回顾了论文《使用NVFP4预训练大型语言模型》并讨论了NVFP4预训练，特别是针对NVIDIA Blackwell。

@harshbhatt7585: https://x.com/harshbhatt7585/status/2063593933314113587

X AI KOLs Timeline

作者分享了从头训练一个160M参数大语言模型的经验，尝试了多种架构，如多Token预测和分层推理模型。他强调快速迭代、简化思路以及理解架构有效原因的重要性。

@yukangchen_: 很高兴分享我们的新博客：利用并行化扩展视频训练 https://research.nvidia.com/labs/eai/blogs/scali…

X AI KOLs Following

这篇来自NVIDIA Research的博客讨论了序列并行化如何扩展长视频训练系统，既支持理解任务也支持生成任务，解决了在多GPU上适配超长视频序列的挑战。

提交意见反馈