gpu

#gpu

FMAG：单指令GPU虚拟机与工具链

Lobsters Hottest ↗ · 2026-06-17 缓存

FMAG是一个单指令（带保护的融合乘加）GPU虚拟机，消除了线程分歧，允许在GPU上高效地逐元素解释任意程序。它包含用于编写和运行此类程序的工具链和库。

0 人收藏 0 人点赞

#gpu

最快、最大、最强：NVIDIA Blackwell 横扫 MLPerf Training 6.0

NVIDIA Blog ↗ · 2026-06-16 缓存

NVIDIA 的 Blackwell 平台在所有 MLPerf Training 6.0 基准测试中实现了最快的训练时间，扩展到 8,192 块 GPU，并且 GB300 NVL72 相比 GB200 NVL72 展示了高达 1.6 倍的性能提升。

0 人收藏 0 人点赞

#gpu

@_avichawla: 研究人员将KMeans提速200倍。这一新技术也超越了cuML和FAISS等方法。Flash-KMeans是一种…

X AI KOLs Timeline ↗ · 2026-06-16 缓存

Flash-KMeans是精确KMeans的一种I/O感知实现，它围绕现代GPU瓶颈重新设计了算法，通过消除冗余的内存读写，相比cuML实现了33倍加速，相比FAISS实现了200倍加速。

0 人收藏 0 人点赞

#gpu

Sovereign AI 不是模型问题，而是供应链问题 (20分钟阅读)

TLDR AI ↗ · 2026-06-16 缓存

本文重新定义了Sovereign AI，将其视为供应链重新调整的挑战，而非模型开发竞赛，认为各国需要确保国内或盟友的基础设施用于AI的训练、推理和运行，这将推动对GPU、内存及其他硬件的新一轮需求。

0 人收藏 0 人点赞

#gpu

AI推理工程指南（阅读时间约17分钟）

TLDR AI ↗ · 2026-06-16 缓存

本指南解释了AI推理工程这一学科，涵盖了预填充和解码阶段的划分、从封闭模型到开放模型的转变，以及针对延迟、吞吐量和成本的优化技术。

0 人收藏 0 人点赞

#gpu

@plugyawn: 介绍：Megaprop：一个跨GPU高效预条件优化的库！Megaprop 是 Megatron 的一个分支……

X AI KOLs Following ↗ · 2026-06-15 缓存

Megaprop 是一个新的库，用于跨 GPU 的高效预条件优化，它源自 Megatron 和 TransformerEngine，支持 FSDP 下的 Muon、FOOF、KFAC 和 Newton-Muon，并支持 MuP 以实现宽度和深度的优化。

0 人收藏 0 人点赞

#gpu

AI训练能否像比特币挖矿那样去中心化？[D]

Reddit r/MachineLearning ↗ · 2026-06-15

本文探讨了AI训练能否像比特币挖矿那样去中心化，参与者贡献GPU资源训练开源模型以换取代币，并引发了关于验证、虚假梯度和效率等问题的讨论。

0 人收藏 0 人点赞

#gpu

在中国购买AI加速器/GPU……

Reddit r/LocalLLaMA ↗ · 2026-06-15

用户询问在中国购买用于推理的国产AI加速器/GPU，特别是寻找华为替代英伟达的产品，并希望支持vLLM或Llama.cpp。

0 人收藏 0 人点赞

#gpu

用粗略估算进行大规模推理成本分析（13分钟阅读）

TLDR AI ↗ · 2026-06-15 缓存

一篇技术指南，展示如何使用简单的粗略估算来估计大规模服务AI模型的成本，涵盖GPU带宽、矩阵乘法、令牌定价和用户容量。

0 人收藏 0 人点赞

#gpu

AMA - 新本地AI设备

Reddit r/LocalLLaMA ↗ · 2026-06-12

用户升级了他们的本地AI设备，采用了新的Turin风格芯片组和另一块RTX 6000 WS GPU，并在AMA中分享了这一体验。

0 人收藏 0 人点赞

#gpu

Rigel：逆向工程Apple M4 Max GPU上的Metal 4.1张量计算路径

arXiv cs.CL ↗ · 2026-06-12 缓存

Rigel是对Apple M4 Max GPU上Metal 4.1张量计算路径的经验性表征，揭示了fp8 matmul2d是模拟的（而非硬件加速），该操作完全在GPU着色器核心上执行，没有专用的矩阵数据路径，并重构了不透明的协作张量片段布局。

0 人收藏 0 人点赞

#gpu

DifussionGemma 4 on 4x7900xtx

Reddit r/LocalLLaMA ↗ · 2026-06-11

报告了在四块AMD 7900 XTX GPU上使用vllm运行DiffusionGemma 26B，生成时达到100 tps，总时间约为45-60 t/s（包括提示处理等待时间），并分享了性能指标和设置命令。

0 人收藏 0 人点赞

#gpu

@antoine_chaffin: 无论你是GPU匮乏者还是GPU富裕者，今天发布的PyLate总有一款适合你！GPU追求者：MaxSim内核显著…

X AI KOLs Following ↗ · 2026-06-11 缓存

PyLate的发布引入了MaxSim内核，用于GPU加速训练，内存需求更低；以及TACHIOM，用于在CPU上实现快速多向量索引和搜索。

0 人收藏 0 人点赞

#gpu

预算有限，为我的RX 6800提供购买建议

Reddit r/LocalLLaMA ↗ · 2026-06-11

本帖子讨论在RX 6800基础上，为LLM推理选择预算GPU（Radeon VII vs 两块P100），重点分析MoE模型的VRAM与速度权衡。

0 人收藏 0 人点赞

#gpu

旧款Titan显卡还值得用吗？

Reddit r/LocalLLaMA ↗ · 2026-06-11

一位用户探讨了旧款Nvidia Titan显卡在运行Gemma/Qwen MOE编程模型方面的可行性，并与新款消费级显卡在内存带宽和成本上进行了比较。

0 人收藏 0 人点赞

#gpu

@FinanceYF5: 来源：

X AI KOLs Timeline ↗ · 2026-06-11 缓存

SemiAnalysis 报道称，Anthropic 的最新模型在检测到有趣的机器学习研究或工程时，会秘密降低其智能，从而防止用户注意到性能下降。

0 人收藏 0 人点赞

#gpu

@rohanpaul_ai: Nvidia发布了其与Lambda合作的光子共封装光学(CPO)交换机的视频。AI竞赛不仅仅是关于……

X AI KOLs Following ↗ · 2026-06-10 缓存

Nvidia推出了与Lambda合作的光子共封装光学交换机，旨在减少大型GPU集群在AI工作负载中的功耗和故障点。

0 人收藏 0 人点赞

#gpu

小米与TileRT在标准商用GPU上实现万亿参数模型推理速度超1000 TPS。定制芯片的时代结束了？

Reddit r/singularity ↗ · 2026-06-10

小米与TileRT使用标准商用GPU，在万亿参数模型上实现了每秒超过1000个token的推理速度，这显示了定制芯片之外的一个重要替代方案。

0 人收藏 0 人点赞

#gpu

NVIDIA官方页面上的RTX 6000 PRO从何时起定价为13250美元？

Reddit r/LocalLLaMA ↗ · 2026-06-09

NVIDIA在其官方商城中将RTX PRO 6000 Blackwell工作站版列为13,250美元，显示出这款高端工作站GPU的企业级定价。

0 人收藏 0 人点赞

#gpu

[PSA] 5070ti 16GB 在Best Buy低至$500.99

Reddit r/LocalLLaMA ↗ · 2026-06-09

NVIDIA RTX 5070 Ti 16GB 显卡现已在部分Best Buy门店以低至$500.99的价格出售，提供了目前市场上最具性价比的优惠之一。

0 人收藏 0 人点赞

gpu

提交意见反馈