标签
本文认为,在使用Ozaki Scheme II的情况下,FP8张量核心可以替代原生FP64硬件,用于像NVIDIA B300这样的AI优化GPU上的高性能科学计算,以更高的吞吐量实现完全的双精度精度。作者提出了张量-内存均衡模型,并表明在所有工作负载中,模拟的FP64性能可以比原生FP64高出数个数量级。