标签
dMX 是一个可微分混合精度量化框架,能够为大型语言模型逐层学习最优的浮点位宽分配,目标是由 OCP 标准定义的 MXFP 系列格式。它采用基于温度的退火策略和预算感知的正则化项进行连续优化,在 Llama、Qwen3 和 SmolLM2 模型上始终优于基于 KL 散度的启发式方法。
IEEE P3109 草案标准定义了一套参数化的二进制浮点格式及其运算体系,专为机器学习场景量身定制,支持可配置的位宽、精度、有符号性及无穷大表示,同时提供丰富的舍入模式(包括随机舍入),并引入了一种称为 kappa 近似的新型尺度不变近似度量方法。
将温度设置为0并不能保证智能体中的工具调用具有确定性,原因在于批处理推理会导致浮点数归约顺序发生变化,从而引发token翻转,并在负载下产生不同的动作。
文章比较了归一化RGB值的两种方法(除以255 vs 除以256),并解释了浮点数转换和舍入的后果,包括在极端值处不均匀的区间宽度。
对Intel 8087浮点协处理器内部微码的详细逆向工程分析,聚焦于FXCH寄存器交换指令及芯片内部架构。
探讨当应用于非规格化浮点数时,floor和ceil函数的行为,强调CPU和GPU实现之间的差异及潜在陷阱。
本文提出数字熵损失(DEL),一种用于大型语言模型数值学习的新型损失函数。它重新定义了熵优化,以提高数字级预测精度并处理浮点数,在数学推理基准上持续优于现有方法。
FPSan是一个Triton编译器pass,通过用整数运算替换浮点运算来实现浮点程序代数等价性的验证,其正确性依赖于Schanuel猜想。
《帝国时代》工程总监深入剖析了系列游戏 25 年来寻路系统的技术债,指出遗留代码、动态地图机制及 SIMD 指令集取代 x87 扩展精度导致的浮点误差是单位“穿墙”等经典 Bug 的根源。
fc 是一款开源的 IEEE-754 64 位双精度浮点数流无损压缩器,对于结构化数据,其压缩率优于 zstd 和 fpzip,但编码速度较慢。
开发者发布了 `exact-poly`,这是一个使用精确整数算术而非浮点数的二维几何库,旨在消除因 IEEE 754 实现差异导致的跨平台重现性问题。
对Intel 8087浮点协处理器指令解码的详细逆向工程分析,解释主CPU与协处理器之间的交互、微码ROM的使用以及总线接口单元。
对 Intel 8087 浮点协处理器微码中使用的条件测试的详细研究,是逆向工程工作的一部分,旨在理解其算法。
本文详细介绍了对Intel 8087浮点协处理器堆栈电路的逆向工程,解释了该芯片基于堆栈的寄存器架构和微码ROM如何实现快速浮点运算。