IEEE SA P3109 机器学习算术格式的新颖特性

arXiv cs.LG 论文

摘要

IEEE P3109 草案标准定义了一套参数化的二进制浮点格式及其运算体系,专为机器学习场景量身定制,支持可配置的位宽、精度、有符号性及无穷大表示,同时提供丰富的舍入模式(包括随机舍入),并引入了一种称为 kappa 近似的新型尺度不变近似度量方法。

arXiv:2606.04028v1 公告类型:新论文 摘要:IEEE P3109 草案标准定义了一套参数化的二进制浮点格式及其相关运算,重点面向机器学习应用。这些格式能够以较少的比特位高效、一致地表示数值。所定义的格式可在位宽、精度(以比特为单位)、有符号性以及是否支持无穷大等维度上进行参数化配置。运算通过将浮点值解码到闭扩展实数集合来定义,该集合由实数扩充正无穷、负无穷和 NaN(非数字)构成。对 NaN 和无穷操作数的显式处理确保了在运算定义中仅涉及实数算术。标准定义了丰富的舍入和饱和模式,并纳入了随机舍入支持。运算设计为无异常抛出,从而提升吞吐量,异常情况通过返回值(如 NaN)进行传递。对共享公共比例因子的数值块的运算,以统一方式基于底层运算加以定义。系统供应商可通过一种新型尺度不变度量方法来描述近似实现,该方法类似于末位单位(ULP),称为 kappa 近似。标准函数定义及其他各类性质均通过形式化规范进行了机械化验证与生成。
查看原文
查看缓存全文

缓存时间: 2026/06/05 02:17

# IEEE SA P3109 机器学习算术格式的新颖特性

来源:https://arxiv.org/abs/2606.04028
查看 PDF (https://arxiv.org/pdf/2606.04028)

> 摘要:IEEE P3109 草案标准定义了一系列参数化的二进制浮点格式及其相关操作,重点面向机器学习应用。这些格式能够以少量比特位高效且一致地表示数值。所定义的格式以位宽、精度、有无符号位以及是否支持无穷大为参数进行参数化。操作通过将浮点值解码为闭合扩展实数集来定义——即实数扩充正负无穷大与 NaN(非数字)后的集合。对 NaN 和无穷大操作数的显式处理确保操作定义中仅调用实数算术。标准定义了丰富的舍入模式和饱和模式,并纳入了随机舍入。操作无异常抛出,从而提升吞吐量,异常情况通过返回值(如 NaN)进行传达。对共享公共缩放因子的数值块的操作,以统一方式基于底层操作定义。系统厂商可通过一种新颖的尺度不变度量来描述近似实现,该度量类似于末位单位(ULP),称为 kappa 近似。标准函数定义及各类其他属性均通过形式化规范进行机械化验证与生成。

## 提交历史

提交者:Christoph M\. Wintersteiger \[查看邮箱 (https://arxiv.org/show-email/110d6528/2606.04028)\] **\[v1\]** 2026 年 6 月 1 日(周一)19:27:39 UTC(24 KB)

相似文章

dMX: 面向低精度浮点格式的可微分混合精度分配

arXiv cs.LG

dMX 是一个可微分混合精度量化框架,能够为大型语言模型逐层学习最优的浮点位宽分配,目标是由 OCP 标准定义的 MXFP 系列格式。它采用基于温度的退火策略和预算感知的正则化项进行连续优化,在 Llama、Qwen3 和 SmolLM2 模型上始终优于基于 KL 散度的启发式方法。