标签
ISC High Performance 2026上的半日教程,关于使用编译器辅助工具(FPChecker/LLVM)进行C/C++科学代码的浮点错误分析与性能分析。
位于中国深圳的LineShine超级计算机凭借2.198 Exaflops的持续FP64性能,荣登TOP500榜首,该计算机采用定制的Armv9 CPU,拥有1300万个核心。同时,它在HPCG基准测试中也领先于El Capitan。
中国建造了全球最快的超级计算机LineShine,在TOP500排名中超越美国系统El Capitan。该系统仅使用CPU,且硬件和软件完全国产化,展示了在面对美国出口限制时的技术自给自足。
中国的LineShine超级计算机成为世界最快的计算机,自2017年以来首次取代美国的El Capitan,标志着高性能计算排名的重大转变。
NVIDIA技术现已为全球500强最快超级计算机中的400多台提供动力(占TOP500的81%),GPU和网络采用率创下纪录,并在Green500榜单上获得最高效率。
NVIDIA 宣布其 Vera CPU 将为洛斯阿拉莫斯国家实验室的新超级计算机提供动力,为代理型 AI 模拟和科学工作负载带来显著性能提升。
讨论在没有高性能计算资源的情况下是否还能进行基础AI研究,考虑到像“Attention is all you need”这样的早期工作使用的是消费级GPU。
本文认为,在使用Ozaki Scheme II的情况下,FP8张量核心可以替代原生FP64硬件,用于像NVIDIA B300这样的AI优化GPU上的高性能科学计算,以更高的吞吐量实现完全的双精度精度。作者提出了张量-内存均衡模型,并表明在所有工作负载中,模拟的FP64性能可以比原生FP64高出数个数量级。
Expanse 是一家创业公司,通过预测作业资源需求并提供优化建议,提高GPU/HPC集群的利用率,解决常见的过度请求资源导致实际利用率仅为30-40%的问题。
EngiAI 提出了一个用于LLM驱动工程设计的 多智能体框架和基准套件,评估工作流、RAG和HPC维度。专有模型在Beams2D上达到96-97%的任务完成率,而条件分支仍具挑战,在Photonics2D上为20-53%。
本文介绍了HPC-LLM,一个面向HPC工作流的检索增强与领域自适应助手,基于HPC文档使用QLoRA微调Llama 3.1 8B模型。实验表明,该模型在资源需求显著降低的情况下,性能与更大的通用模型相当。
本文介绍生成式量子启发柯尔莫哥洛夫-阿诺德本征求解器(GQKAE),一种参数高效架构,用柯尔莫哥洛夫-阿诺德模块替代传统神经网络组件,显著降低内存使用并改善量子化学模拟中的收敛性。
对DeskPi Super4C(一款四节点树莓派CM5集群板)的评测,着重介绍了其改进的远程管理和冗余电源/以太网,同时指出SBC集群性价比不高,但对于爱好者进行HPC折腾来说却很有趣。
# 深入探索后端系统的细节 来源:[https://openai.com/index/discovering-the-minutiae-of-backend-systems/](https://openai.com/index/discovering-the-minutiae-of-backend-systems/) OpenAI 很幸运在年幼时就接触到了编程,并将其作为探索其他话题的入口。在中学时,一位朋友向我介绍了 Texas Instruments 计算器中特有的 BASIC 编程语言(我写的代码可想而知是难以维护的)