gpu

标签

Cards List
#gpu

Mimo 2.5 在大上下文下_快速_(双 RTX Pro 6000)

Reddit r/LocalLLaMA · 3小时前

Mimo 2.5 使用双 RTX Pro 6000 GPU 展示了在大上下文窗口下的快速性能。

0 人收藏 0 人点赞
#gpu

Modal Auto Endpoints:你掌控的优化推理

Hacker News Top · 7小时前 缓存

Modal推出了Auto Endpoints,这是一项自助服务,提供优化的、生产级的LLM推理,具备完整代码所有权、透明指标和自动缩放功能,构建于其无服务器GPU基础设施之上。

0 人收藏 0 人点赞
#gpu

NVIDIA为全球500强最快超级计算机中的400多台提供动力

NVIDIA Blog · 17小时前 缓存

NVIDIA技术现已为全球500强最快超级计算机中的400多台提供动力(占TOP500的81%),GPU和网络采用率创下纪录,并在Green500榜单上获得最高效率。

0 人收藏 0 人点赞
#gpu

多层级MoE缓存

Reddit r/LocalLLaMA · 19小时前

讨论MoE模型的多层级缓存策略,通过将频繁激活的专家保留在GPU上来提升推理速度,参考了PowerInfer和llama.cpp分支等现有实现。

0 人收藏 0 人点赞
#gpu

据报道,SpaceX与Reflection AI签署63亿美元计算交易 / 这笔63亿美元的SpaceX交易使其能够获得位于孟菲斯Colossus集群的Nvidia GB300 GPU使用权,直至2029年。

Reddit r/singularity · 昨天

据报道,SpaceX与Reflection AI签署了一项63亿美元的计算交易,确保其在2029年前获得位于孟菲斯Colossus集群的Nvidia GB300 GPU使用权。

0 人收藏 0 人点赞
#gpu

@BlackRainLabs: 使用TurboQuant,我能在GTX1060 3GB上以20 tokens/秒运行qwen 3.6 35b MoE。对于这么小又老的显卡来说,简直疯狂。…

X AI KOLs Following · 昨天 缓存

使用TurboQuant,用户在GTX1060 3GB上以20 tokens/秒运行Qwen 3.6 35B MoE模型,展现了在陈旧硬件上令人印象深刻的性能。

0 人收藏 0 人点赞
#gpu

@Mayhem4Markets: https://x.com/Mayhem4Markets/status/2069090022117019928

X AI KOLs Following · 昨天 缓存

两大主流LLM服务框架SGLang和vLLM的详细技术对比,涵盖KV缓存管理(RadixAttention vs PagedAttention)的架构差异、吞吐量、延迟以及自托管环境的部署考量。

0 人收藏 0 人点赞
#gpu

GLM-5.2 UD-IQ1_M 在 llama.cpp 上的运行 — 5090 + 3090 Ti 速度测试 (~ 579 t/s 预填充 @ 8k 上下文, ~324 t/s 预填充 @ 57k 上下文, ~10.6 t/s 解码)

Reddit r/LocalLLaMA · 昨天

GLM-5.2 在 llama.cpp 上使用 RTX 5090 和 RTX 3090 Ti 运行的速度测试结果,显示在 8k 上下文中预填充速度高达 579 t/s,解码速度约为 10.6 t/s。

0 人收藏 0 人点赞
#gpu

我构建了一个工具,用于在8GB GPU上自动交换VRAM,将小型Prompter和大型Coder串联成一个流水线,避免手动切换模型

Reddit r/LocalLLaMA · 昨天

作者构建了Prompt-Chain,这是一个Streamlit应用,它将一个小型prompter模型和一个大型coder模型串联起来,并自动交换VRAM,从而在8GB GPU上实现高效的代码生成。

0 人收藏 0 人点赞
#gpu

@BigbirdflyChan: 6月18日,JP摩根发布了一份非常重要的ASIC行业报告,我提取了一些关键内容和大家分享。 报告最核心的观点是:AI时代正在推动定制芯片ASIC进入新一轮黄金周期,而最大的受益者是Broadcom和Marvell。对的,Mrvl最近风头十…

X AI KOLs Timeline · 昨天 缓存

JP摩根发布ASIC行业报告,预测AI定制芯片进入黄金周期,Broadcom和Marvell是最大受益者,并预计到2027年AI ASIC出货量将首次超过GPU。

0 人收藏 0 人点赞
#gpu

@TheAhmadOsman: 为什么我关注你硬件的推理引擎/软件栈? - 2x RTX 3090s: ~14.5 tok/s → ~64 tok/s 提升到…

X AI KOLs Following · 2天前 缓存

不同硬件上推理引擎性能对比:在2x RTX 3090s上从基线迁移到TP=2的vLLM,性能从~14.5 tok/s提升至~64 tok/s;在RTX PRO 6000上迁移到Sglang,性能从~32 tok/s提升至~110 tok/s。推荐在CUDA/多GPU场景使用vLLM/Sglang,在边缘设备使用llama.cpp。

0 人收藏 0 人点赞
#gpu

@TheAhmadOsman: 本地AI硬件 = 容量 × 带宽 × 软件栈 - 容量决定能装下什么 - 带宽告诉你有多难…

X AI KOLs Following · 2天前 缓存

一份关于本地AI硬件在内存容量、带宽和软件栈方面的详细比较,涵盖GPU、Apple Silicon、AMD、Intel、Tenstorrent等,重点关注AI推理中哪些瓶颈最关键。

0 人收藏 0 人点赞
#gpu

AMD 未来 GPU 产品。一些适合构建 LLM 的有趣产品。你会用它们搭建什么样的 LLM 机器?

Reddit r/LocalLLaMA · 3天前

关于即将推出的 AMD GPU 产品及其搭建 LLM 机器潜力的讨论,并向社区征求构建建议。

0 人收藏 0 人点赞
#gpu

RTX 5090 MSI,仅推理或训练时功耗475-500W。请确保不要弯折线缆!

Reddit r/LocalLLaMA · 3天前

MSI的RTX 5090 GPU在推理或训练时功耗为475-500W,并附有关于线缆弯折的警告。

0 人收藏 0 人点赞
#gpu

@SlimTradeyBaby: 在下方列出你的GPU,我会告诉你运行什么模型和配置。开玩笑的。没必要。Qwen 3.6 27b @Unsloth…

X AI KOLs Timeline · 3天前 缓存

一条推广Qwen 3.6 27b模型并推荐UnslothAI在任何GPU上运行它的推文。

0 人收藏 0 人点赞
#gpu

@TheAhmadOsman: 市场所见一切让我断定:如果你已积累使用 GPU 和……的经验

X AI KOLs Following · 5天前

一项市场观察表明,雇主将非常需要具有 GPU 和本地AI 经验的人才。

0 人收藏 0 人点赞
#gpu

LQ50/LQ50-24GB 价格约1200美元

Reddit r/LocalLLaMA · 5天前

LQ50和LQ50-24GB的定价约为1200美元,属于中端AI硬件产品。

0 人收藏 0 人点赞
#gpu

@jino_rohit: https://x.com/jino_rohit/status/2067620031517860243

X AI KOLs Timeline · 5天前 缓存

解释多GPU系统的通信模型,涵盖延迟与带宽之间的权衡,并比较MST和Ring算法在广播等集合操作中的应用。

0 人收藏 0 人点赞
#gpu

@ericlbuehler: 兴奋地分享 cuTile Rust:将 Rust 的无畏并发性引入 GPU 内核编程。我们的论文《Fearless Concu…

X AI KOLs Timeline · 6天前 缓存

兴奋地分享 cuTile Rust,将 Rust 的无畏并发性引入 GPU 内核编程。他们的论文《Fearless Concurrency on the GPU》现已发布在 arXiv 上。

0 人收藏 0 人点赞
#gpu

FMAG:单指令GPU虚拟机与工具链

Lobsters Hottest · 6天前 缓存

FMAG是一个单指令(带保护的融合乘加)GPU虚拟机,消除了线程分歧,允许在GPU上高效地逐元素解释任意程序。它包含用于编写和运行此类程序的工具链和库。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈