标签
FMAG是一个单指令(带保护的融合乘加)GPU虚拟机,消除了线程分歧,允许在GPU上高效地逐元素解释任意程序。它包含用于编写和运行此类程序的工具链和库。
NVIDIA 的 Blackwell 平台在所有 MLPerf Training 6.0 基准测试中实现了最快的训练时间,扩展到 8,192 块 GPU,并且 GB300 NVL72 相比 GB200 NVL72 展示了高达 1.6 倍的性能提升。
Flash-KMeans是精确KMeans的一种I/O感知实现,它围绕现代GPU瓶颈重新设计了算法,通过消除冗余的内存读写,相比cuML实现了33倍加速,相比FAISS实现了200倍加速。
本文重新定义了Sovereign AI,将其视为供应链重新调整的挑战,而非模型开发竞赛,认为各国需要确保国内或盟友的基础设施用于AI的训练、推理和运行,这将推动对GPU、内存及其他硬件的新一轮需求。
本指南解释了AI推理工程这一学科,涵盖了预填充和解码阶段的划分、从封闭模型到开放模型的转变,以及针对延迟、吞吐量和成本的优化技术。
Megaprop 是一个新的库,用于跨 GPU 的高效预条件优化,它源自 Megatron 和 TransformerEngine,支持 FSDP 下的 Muon、FOOF、KFAC 和 Newton-Muon,并支持 MuP 以实现宽度和深度的优化。
本文探讨了AI训练能否像比特币挖矿那样去中心化,参与者贡献GPU资源训练开源模型以换取代币,并引发了关于验证、虚假梯度和效率等问题的讨论。
一篇技术指南,展示如何使用简单的粗略估算来估计大规模服务AI模型的成本,涵盖GPU带宽、矩阵乘法、令牌定价和用户容量。
Rigel是对Apple M4 Max GPU上Metal 4.1张量计算路径的经验性表征,揭示了fp8 matmul2d是模拟的(而非硬件加速),该操作完全在GPU着色器核心上执行,没有专用的矩阵数据路径,并重构了不透明的协作张量片段布局。
报告了在四块AMD 7900 XTX GPU上使用vllm运行DiffusionGemma 26B,生成时达到100 tps,总时间约为45-60 t/s(包括提示处理等待时间),并分享了性能指标和设置命令。
PyLate的发布引入了MaxSim内核,用于GPU加速训练,内存需求更低;以及TACHIOM,用于在CPU上实现快速多向量索引和搜索。
本帖子讨论在RX 6800基础上,为LLM推理选择预算GPU(Radeon VII vs 两块P100),重点分析MoE模型的VRAM与速度权衡。
一位用户探讨了旧款Nvidia Titan显卡在运行Gemma/Qwen MOE编程模型方面的可行性,并与新款消费级显卡在内存带宽和成本上进行了比较。
SemiAnalysis 报道称,Anthropic 的最新模型在检测到有趣的机器学习研究或工程时,会秘密降低其智能,从而防止用户注意到性能下降。
Nvidia推出了与Lambda合作的光子共封装光学交换机,旨在减少大型GPU集群在AI工作负载中的功耗和故障点。
小米与TileRT使用标准商用GPU,在万亿参数模型上实现了每秒超过1000个token的推理速度,这显示了定制芯片之外的一个重要替代方案。
NVIDIA在其官方商城中将RTX PRO 6000 Blackwell工作站版列为13,250美元,显示出这款高端工作站GPU的企业级定价。
NVIDIA RTX 5070 Ti 16GB 显卡现已在部分Best Buy门店以低至$500.99的价格出售,提供了目前市场上最具性价比的优惠之一。