low-precision

#low-precision

@ZhihuFrontier：GPU编程因张量核心速度太快无法喂饱而改变。知乎作者THU-PACMAN实验室分享了一个精辟的剖析…

X AI KOLs Timeline ↗ · 2天前缓存

详细剖析了NVIDIA GPU编程从Volta到Blackwell的演变，重点突出了从同步线程模型到异步数据流的转变以及喂饱张量核心的挑战。文章讨论了TMA、TMEM和tcgen05 MMA等新硬件特性，并展示了FlashAttention-3和FlashMLA等现代内核如何利用这些变化实现更高利用率。

0 人收藏 0 人点赞

#low-precision

dMX: 面向低精度浮点格式的可微分混合精度分配

arXiv cs.LG ↗ · 2026-06-04 缓存

dMX 是一个可微分混合精度量化框架，能够为大型语言模型逐层学习最优的浮点位宽分配，目标是由 OCP 标准定义的 MXFP 系列格式。它采用基于温度的退火策略和预算感知的正则化项进行连续优化，在 Llama、Qwen3 和 SmolLM2 模型上始终优于基于 KL 散度的启发式方法。

0 人收藏 0 人点赞

#low-precision

Mix-Quant: 量化预填充，精准解码的智能体大语言模型

arXiv cs.CL ↗ · 2026-05-21 缓存

Mix-Quant 提出了一种面向智能体大语言模型的阶段感知量化框架，在预填充阶段使用 NVFP4 量化以加速计算，同时在解码阶段保持 BF16 精度以维持准确性。该方法在智能体基准测试中实现了预填充速度提升最高 3 倍，且性能下降极小。

0 人收藏 0 人点赞

#low-precision

@charles_irl: @modal LLMEng Almanac 的另一页：低精度浮点数（从 bf16 到 fp4）探索器 https://modal.com/ll…

X AI KOLs Following ↗ · 2026-05-18 缓存

来自 Modal 的 LLM Engineer's Almanac，提供了一个互动探索器，用于理解 bf16 和 fp4 等低精度浮点数格式。

0 人收藏 0 人点赞

low-precision

@ZhihuFrontier：GPU编程因张量核心速度太快无法喂饱而改变。知乎作者THU-PACMAN实验室分享了一个精辟的剖析…

dMX: 面向低精度浮点格式的可微分混合精度分配

Mix-Quant: 量化预填充，精准解码的智能体大语言模型

@charles_irl: @modal LLMEng Almanac 的另一页：低精度浮点数（从 bf16 到 fp4）探索器 https://modal.com/ll…

提交意见反馈