IEEE SA P3109 机器学习算术格式的新颖特性

arXiv cs.LG 2026/06/04 04:00 论文

摘要

IEEE P3109 草案标准定义了一套参数化的二进制浮点格式及其运算体系，专为机器学习场景量身定制，支持可配置的位宽、精度、有符号性及无穷大表示，同时提供丰富的舍入模式（包括随机舍入），并引入了一种称为 kappa 近似的新型尺度不变近似度量方法。

arXiv:2606.04028v1 公告类型：新论文摘要：IEEE P3109 草案标准定义了一套参数化的二进制浮点格式及其相关运算，重点面向机器学习应用。这些格式能够以较少的比特位高效、一致地表示数值。所定义的格式可在位宽、精度（以比特为单位）、有符号性以及是否支持无穷大等维度上进行参数化配置。运算通过将浮点值解码到闭扩展实数集合来定义，该集合由实数扩充正无穷、负无穷和 NaN（非数字）构成。对 NaN 和无穷操作数的显式处理确保了在运算定义中仅涉及实数算术。标准定义了丰富的舍入和饱和模式，并纳入了随机舍入支持。运算设计为无异常抛出，从而提升吞吐量，异常情况通过返回值（如 NaN）进行传递。对共享公共比例因子的数值块的运算，以统一方式基于底层运算加以定义。系统供应商可通过一种新型尺度不变度量方法来描述近似实现，该方法类似于末位单位（ULP），称为 kappa 近似。标准函数定义及其他各类性质均通过形式化规范进行了机械化验证与生成。

查看原文

查看缓存全文

缓存时间: 2026/06/05 02:17

# IEEE SA P3109 机器学习算术格式的新颖特性

来源：https://arxiv.org/abs/2606.04028
查看 PDF (https://arxiv.org/pdf/2606.04028)

> 摘要：IEEE P3109 草案标准定义了一系列参数化的二进制浮点格式及其相关操作，重点面向机器学习应用。这些格式能够以少量比特位高效且一致地表示数值。所定义的格式以位宽、精度、有无符号位以及是否支持无穷大为参数进行参数化。操作通过将浮点值解码为闭合扩展实数集来定义——即实数扩充正负无穷大与 NaN（非数字）后的集合。对 NaN 和无穷大操作数的显式处理确保操作定义中仅调用实数算术。标准定义了丰富的舍入模式和饱和模式，并纳入了随机舍入。操作无异常抛出，从而提升吞吐量，异常情况通过返回值（如 NaN）进行传达。对共享公共缩放因子的数值块的操作，以统一方式基于底层操作定义。系统厂商可通过一种新颖的尺度不变度量来描述近似实现，该度量类似于末位单位（ULP），称为 kappa 近似。标准函数定义及各类其他属性均通过形式化规范进行机械化验证与生成。

## 提交历史

提交者：Christoph M\. Wintersteiger \[查看邮箱 (https://arxiv.org/show-email/110d6528/2606.04028)\] **\[v1\]** 2026 年 6 月 1 日（周一）19:27:39 UTC（24 KB）

IEEE SA P3109 机器学习算术格式的新颖特性

相似文章

@jino_rohit: 在开始学习LLMs的量化之前，你需要理解不同数字格式在内存中是如何表示的……

dMX: 面向低精度浮点格式的可微分混合精度分配

RISC-V 与浮点运算

@HowToAI_: NVIDIA 完成了一项不可能的任务，却无人提及。他们以 4 位精度训练了一个 120 亿参数的 LLM…

面向近无损HiF8 W8A8量化感知训练的最大窗口缩放估计

提交意见反馈