IEEE SA P3109 机器学习算术格式的新颖特性
摘要
IEEE P3109 草案标准定义了一套参数化的二进制浮点格式及其运算体系,专为机器学习场景量身定制,支持可配置的位宽、精度、有符号性及无穷大表示,同时提供丰富的舍入模式(包括随机舍入),并引入了一种称为 kappa 近似的新型尺度不变近似度量方法。
arXiv:2606.04028v1 公告类型:新论文
摘要:IEEE P3109 草案标准定义了一套参数化的二进制浮点格式及其相关运算,重点面向机器学习应用。这些格式能够以较少的比特位高效、一致地表示数值。所定义的格式可在位宽、精度(以比特为单位)、有符号性以及是否支持无穷大等维度上进行参数化配置。运算通过将浮点值解码到闭扩展实数集合来定义,该集合由实数扩充正无穷、负无穷和 NaN(非数字)构成。对 NaN 和无穷操作数的显式处理确保了在运算定义中仅涉及实数算术。标准定义了丰富的舍入和饱和模式,并纳入了随机舍入支持。运算设计为无异常抛出,从而提升吞吐量,异常情况通过返回值(如 NaN)进行传递。对共享公共比例因子的数值块的运算,以统一方式基于底层运算加以定义。系统供应商可通过一种新型尺度不变度量方法来描述近似实现,该方法类似于末位单位(ULP),称为 kappa 近似。标准函数定义及其他各类性质均通过形式化规范进行了机械化验证与生成。
查看缓存全文
缓存时间: 2026/06/05 02:17
# IEEE SA P3109 机器学习算术格式的新颖特性 来源:https://arxiv.org/abs/2606.04028 查看 PDF (https://arxiv.org/pdf/2606.04028) > 摘要:IEEE P3109 草案标准定义了一系列参数化的二进制浮点格式及其相关操作,重点面向机器学习应用。这些格式能够以少量比特位高效且一致地表示数值。所定义的格式以位宽、精度、有无符号位以及是否支持无穷大为参数进行参数化。操作通过将浮点值解码为闭合扩展实数集来定义——即实数扩充正负无穷大与 NaN(非数字)后的集合。对 NaN 和无穷大操作数的显式处理确保操作定义中仅调用实数算术。标准定义了丰富的舍入模式和饱和模式,并纳入了随机舍入。操作无异常抛出,从而提升吞吐量,异常情况通过返回值(如 NaN)进行传达。对共享公共缩放因子的数值块的操作,以统一方式基于底层操作定义。系统厂商可通过一种新颖的尺度不变度量来描述近似实现,该度量类似于末位单位(ULP),称为 kappa 近似。标准函数定义及各类其他属性均通过形式化规范进行机械化验证与生成。 ## 提交历史 提交者:Christoph M\. Wintersteiger \[查看邮箱 (https://arxiv.org/show-email/110d6528/2606.04028)\] **\[v1\]** 2026 年 6 月 1 日(周一)19:27:39 UTC(24 KB)
相似文章
@jino_rohit: 在开始学习LLMs的量化之前,你需要理解不同数字格式在内存中是如何表示的……
一篇帖子解释为什么理解内存中的数字格式对于学习LLM量化至关重要,涵盖梯度NaN调试、数值稳定性以及量化失真。
dMX: 面向低精度浮点格式的可微分混合精度分配
dMX 是一个可微分混合精度量化框架,能够为大型语言模型逐层学习最优的浮点位宽分配,目标是由 OCP 标准定义的 MXFP 系列格式。它采用基于温度的退火策略和预算感知的正则化项进行连续优化,在 Llama、Qwen3 和 SmolLM2 模型上始终优于基于 KL 散度的启发式方法。
RISC-V 与浮点运算
关于 RISC-V 架构浮点功能及更新的报告。
@HowToAI_: NVIDIA 完成了一项不可能的任务,却无人提及。他们以 4 位精度训练了一个 120 亿参数的 LLM…
NVIDIA 利用新的 NVFP4 格式及微缩放技术,以 4 位精度训练了一个 120 亿参数的大语言模型,在几乎不损失智能的同时,内存使用减半、算术速度提升三倍,标志着高效 AI 训练的重大突破。
面向近无损HiF8 W8A8量化感知训练的最大窗口缩放估计
本文系统研究了OpenPangu-Embedded-1B的HiF8 W8A8量化感知训练,识别并解决了amax饱和和灾难性遗忘等失效模式,通过64步最大算法DTS策略和500步BF16预热实现了近无损性能。