gpu-architecture

#gpu-architecture

FP8就是你所需的一切（第一部分）：驳斥硬件FP64作为HPC圣杯的观点

arXiv cs.AI ↗ · 2026-06-08 缓存

本文认为，在使用Ozaki Scheme II的情况下，FP8张量核心可以替代原生FP64硬件，用于像NVIDIA B300这样的AI优化GPU上的高性能科学计算，以更高的吞吐量实现完全的双精度精度。作者提出了张量-内存均衡模型，并表明在所有工作负载中，模拟的FP64性能可以比原生FP64高出数个数量级。

0 人收藏 0 人点赞

#gpu-architecture

@vivekgalatage：我发现的最好的GPU优化结构化参考资料——450篇论文，14年研究。一些技术已经进化……

X AI KOLs Timeline ↗ · 2026-05-20 缓存

一条推文分享了一个涵盖14年、450篇论文的GPU优化结构化参考资料，指出虽然一些技术已经发展，但心智模型仍然有用。还提到了Onur Mutlu关于GPU架构的讲座。

0 人收藏 0 人点赞

#gpu-architecture

有人关注 Q.ANT 光子 GPU 的进展吗？技术拐点已至

Reddit r/LocalLLaMA ↗ · 2026-05-13

Q.ANT 在奥斯汀设立了美国办事处，并任命 Bruno Spruth 为 CTO，突显其光子 GPU 在莱布尼茨超级计算中心已进入生产阶段，据称在性能和能效方面较传统晶体管芯片有显著提升。

0 人收藏 0 人点赞

#gpu-architecture

@pauliusztin_: 我刚找到了理解 GPU 最实用的资源之一。再也不用在不同文档、PDF 和论坛帖子之间跳来跳去了…

X AI KOLs Following ↗ · 2026-05-08 缓存

Modal Labs 发布了一个开源的 GPU 术语词典，将零散的 NVIDIA 文档、CUDA 细节及编译器参数整合为单一的可导航资源，旨在帮助工程师优化 LLM 的训练与推理。

0 人收藏 0 人点赞

#gpu-architecture

https://www.youtube.com/watch?v=aE0onltJlOo

YouTube AI Channels ↗ · 2026-05-21 缓存

该讲座介绍了GPU架构作为SIMD（向量/数组）处理器的灵活演化，讨论了数据并行性、存储体分组、体冲突、串行瓶颈以及SIMD指令历史（如MMX），强调GPU如何利用数据并行性并应对串行瓶颈。

0 人收藏 0 人点赞

gpu-architecture

FP8就是你所需的一切（第一部分）：驳斥硬件FP64作为HPC圣杯的观点

@vivekgalatage：我发现的最好的GPU优化结构化参考资料——450篇论文，14年研究。一些技术已经进化……

有人关注 Q.ANT 光子 GPU 的进展吗？技术拐点已至

@pauliusztin_: 我刚找到了理解 GPU 最实用的资源之一。再也不用在不同文档、PDF 和论坛帖子之间跳来跳去了…

https://www.youtube.com/watch?v=aE0onltJlOo

提交意见反馈