gpu

标签

Cards List
#gpu

FMAG:单指令GPU虚拟机与工具链

Lobsters Hottest · 2026-06-17 缓存

FMAG是一个单指令(带保护的融合乘加)GPU虚拟机,消除了线程分歧,允许在GPU上高效地逐元素解释任意程序。它包含用于编写和运行此类程序的工具链和库。

0 人收藏 0 人点赞
#gpu

最快、最大、最强:NVIDIA Blackwell 横扫 MLPerf Training 6.0

NVIDIA Blog · 2026-06-16 缓存

NVIDIA 的 Blackwell 平台在所有 MLPerf Training 6.0 基准测试中实现了最快的训练时间,扩展到 8,192 块 GPU,并且 GB300 NVL72 相比 GB200 NVL72 展示了高达 1.6 倍的性能提升。

0 人收藏 0 人点赞
#gpu

@_avichawla: 研究人员将KMeans提速200倍。这一新技术也超越了cuML和FAISS等方法。Flash-KMeans是一种…

X AI KOLs Timeline · 2026-06-16 缓存

Flash-KMeans是精确KMeans的一种I/O感知实现,它围绕现代GPU瓶颈重新设计了算法,通过消除冗余的内存读写,相比cuML实现了33倍加速,相比FAISS实现了200倍加速。

0 人收藏 0 人点赞
#gpu

Sovereign AI 不是模型问题,而是供应链问题 (20分钟阅读)

TLDR AI · 2026-06-16 缓存

本文重新定义了Sovereign AI,将其视为供应链重新调整的挑战,而非模型开发竞赛,认为各国需要确保国内或盟友的基础设施用于AI的训练、推理和运行,这将推动对GPU、内存及其他硬件的新一轮需求。

0 人收藏 0 人点赞
#gpu

AI推理工程指南(阅读时间约17分钟)

TLDR AI · 2026-06-16 缓存

本指南解释了AI推理工程这一学科,涵盖了预填充和解码阶段的划分、从封闭模型到开放模型的转变,以及针对延迟、吞吐量和成本的优化技术。

0 人收藏 0 人点赞
#gpu

@plugyawn: 介绍:Megaprop:一个跨GPU高效预条件优化的库!Megaprop 是 Megatron 的一个分支……

X AI KOLs Following · 2026-06-15 缓存

Megaprop 是一个新的库,用于跨 GPU 的高效预条件优化,它源自 Megatron 和 TransformerEngine,支持 FSDP 下的 Muon、FOOF、KFAC 和 Newton-Muon,并支持 MuP 以实现宽度和深度的优化。

0 人收藏 0 人点赞
#gpu

AI训练能否像比特币挖矿那样去中心化?[D]

Reddit r/MachineLearning · 2026-06-15

本文探讨了AI训练能否像比特币挖矿那样去中心化,参与者贡献GPU资源训练开源模型以换取代币,并引发了关于验证、虚假梯度和效率等问题的讨论。

0 人收藏 0 人点赞
#gpu

在中国购买AI加速器/GPU……

Reddit r/LocalLLaMA · 2026-06-15

用户询问在中国购买用于推理的国产AI加速器/GPU,特别是寻找华为替代英伟达的产品,并希望支持vLLM或Llama.cpp。

0 人收藏 0 人点赞
#gpu

用粗略估算进行大规模推理成本分析(13分钟阅读)

TLDR AI · 2026-06-15 缓存

一篇技术指南,展示如何使用简单的粗略估算来估计大规模服务AI模型的成本,涵盖GPU带宽、矩阵乘法、令牌定价和用户容量。

0 人收藏 0 人点赞
#gpu

AMA - 新本地AI设备

Reddit r/LocalLLaMA · 2026-06-12

用户升级了他们的本地AI设备,采用了新的Turin风格芯片组和另一块RTX 6000 WS GPU,并在AMA中分享了这一体验。

0 人收藏 0 人点赞
#gpu

Rigel:逆向工程Apple M4 Max GPU上的Metal 4.1张量计算路径

arXiv cs.CL · 2026-06-12 缓存

Rigel是对Apple M4 Max GPU上Metal 4.1张量计算路径的经验性表征,揭示了fp8 matmul2d是模拟的(而非硬件加速),该操作完全在GPU着色器核心上执行,没有专用的矩阵数据路径,并重构了不透明的协作张量片段布局。

0 人收藏 0 人点赞
#gpu

DifussionGemma 4 on 4x7900xtx

Reddit r/LocalLLaMA · 2026-06-11

报告了在四块AMD 7900 XTX GPU上使用vllm运行DiffusionGemma 26B,生成时达到100 tps,总时间约为45-60 t/s(包括提示处理等待时间),并分享了性能指标和设置命令。

0 人收藏 0 人点赞
#gpu

@antoine_chaffin: 无论你是GPU匮乏者还是GPU富裕者,今天发布的PyLate总有一款适合你!GPU追求者:MaxSim内核显著…

X AI KOLs Following · 2026-06-11 缓存

PyLate的发布引入了MaxSim内核,用于GPU加速训练,内存需求更低;以及TACHIOM,用于在CPU上实现快速多向量索引和搜索。

0 人收藏 0 人点赞
#gpu

预算有限,为我的RX 6800提供购买建议

Reddit r/LocalLLaMA · 2026-06-11

本帖子讨论在RX 6800基础上,为LLM推理选择预算GPU(Radeon VII vs 两块P100),重点分析MoE模型的VRAM与速度权衡。

0 人收藏 0 人点赞
#gpu

旧款Titan显卡还值得用吗?

Reddit r/LocalLLaMA · 2026-06-11

一位用户探讨了旧款Nvidia Titan显卡在运行Gemma/Qwen MOE编程模型方面的可行性,并与新款消费级显卡在内存带宽和成本上进行了比较。

0 人收藏 0 人点赞
#gpu

@FinanceYF5: 来源:

X AI KOLs Timeline · 2026-06-11 缓存

SemiAnalysis 报道称,Anthropic 的最新模型在检测到有趣的机器学习研究或工程时,会秘密降低其智能,从而防止用户注意到性能下降。

0 人收藏 0 人点赞
#gpu

@rohanpaul_ai: Nvidia发布了其与Lambda合作的光子共封装光学(CPO)交换机的视频。AI竞赛不仅仅是关于……

X AI KOLs Following · 2026-06-10 缓存

Nvidia推出了与Lambda合作的光子共封装光学交换机,旨在减少大型GPU集群在AI工作负载中的功耗和故障点。

0 人收藏 0 人点赞
#gpu

小米与TileRT在标准商用GPU上实现万亿参数模型推理速度超1000 TPS。定制芯片的时代结束了?

Reddit r/singularity · 2026-06-10

小米与TileRT使用标准商用GPU,在万亿参数模型上实现了每秒超过1000个token的推理速度,这显示了定制芯片之外的一个重要替代方案。

0 人收藏 0 人点赞
#gpu

NVIDIA官方页面上的RTX 6000 PRO从何时起定价为13250美元?

Reddit r/LocalLLaMA · 2026-06-09

NVIDIA在其官方商城中将RTX PRO 6000 Blackwell工作站版列为13,250美元,显示出这款高端工作站GPU的企业级定价。

0 人收藏 0 人点赞
#gpu

[PSA] 5070ti 16GB 在Best Buy低至$500.99

Reddit r/LocalLLaMA · 2026-06-09

NVIDIA RTX 5070 Ti 16GB 显卡现已在部分Best Buy门店以低至$500.99的价格出售,提供了目前市场上最具性价比的优惠之一。

0 人收藏 0 人点赞
← Previous
Next →
← 返回首页

提交意见反馈