gpu

#gpu

@Modular：HTTP路由问题已经解决了多年。然后大语言模型出现了。它们的后端不是可互换的…

X AI KOLs Following ↗ · 昨天缓存

Modular发布了一篇博客文章，解释为什么传统的HTTP路由不适用于LLM推理工作负载。文章描述了他们如何在其分布式推理框架中处理有状态的异构GPU pod（包括KV缓存、专用的预填充/解码后端以及对话级路由），这些是传统无状态路由算法无法解决的。

0 人收藏 0 人点赞

#gpu

@oliviscusAI: 有人刚刚开源了一款桌面应用，它可以通过图像生成3D模型，并且完全本地运行。它叫Modly。…

X AI KOLs Timeline ↗ · 昨天

Modly是一款开源桌面应用，可从图像生成完全纹理化的3D网格，完全在本地GPU上运行，并支持可插拔的AI模型扩展。

0 人收藏 0 人点赞

#gpu

Meta的优化版RecSys推理（58分钟阅读）

TLDR AI ↗ · 昨天缓存

Meta的内核内广播优化（IKBO）通过内核-模型-系统协同设计，消除了RecSys推理中的冗余用户嵌入广播，在H100 GPU上实现了高达2/3的延迟降低和约4倍加速，并成为Meta自适应排名模型的骨干。

0 人收藏 0 人点赞

#gpu

AMD将发布可插拔GPU

Reddit r/LocalLLaMA ↗ · 2天前

AMD即将发布基于PCIe的新型可插拔Instinct GPU，面向企业AI市场，为本地大语言模型部署提供潜在的新硬件选择。

0 人收藏 0 人点赞

#gpu

AMD推出Instinct MI350P加速器：CDNA 4架构登陆PCIe卡

Reddit r/LocalLLaMA ↗ · 2天前

AMD推出采用CDNA 4架构的Instinct MI350P加速器，采用PCIe形态，但尚未公布定价和上市信息。

0 人收藏 0 人点赞

#gpu

用一个 Python 字典将多模态推理性能提升超 10%

Hacker News Top ↗ · 3天前缓存

Modal 的工程师对 SGLang 调度器在多模态 VLM 工作负载下进行了性能分析，发现将开销较大的 GPU 显存记录操作替换为一个简单的 Python 字典缓存后，吞吐量提升了 16%，延迟降低了超过 13%。该修复已合并至 SGLang v0.5.10。

0 人收藏 0 人点赞

#gpu

@anyscalecompute：大多数编码 Agent 都会写 Python，但这不代表它们会部署 Ray 工作负载

X AI KOLs Following ↗ · 2026-04-22 缓存

Anyscale 推出 Agent Skills，帮助编码 Agent 正确部署 Ray 工作负载，妥善处理 GPU 内存并使用最新 API。

0 人收藏 0 人点赞

#gpu

@sama：这是用 ChatGPT Images 2.0 制作的漫画，讲述@gabeeegoooh 和我一起寻找更多 GPU 的故事：

X AI KOLs ↗ · 2026-04-21 缓存

Sam Altman 晒出由 ChatGPT Images 2.0 生成的漫画，描绘“GPU 狩猎”，暗示图像生成功能将升级。

0 人收藏 0 人点赞

#gpu

@vllm_project：我们刚刚上线了 http://recipes.vllm.ai 的重大改版。“如何在硬件 Y 上为任务 Z 运行模型 X？”现在有了……

X AI KOLs Following ↗ · 2026-04-21

vLLM 推出全新设计的 recipes 站点，可把任意 HuggingFace 模型地址一键变成适配指定硬件与任务的即用推理配方。

0 人收藏 0 人点赞

#gpu

@gabriel1：10 万卡 H100 数据中心的大致估算数字，取整至便于快速心算的数量级……

X AI KOLs Following ↗ · 2026-04-21 缓存

10 万卡 H100 数据中心的大致估算数字，取整至便于快速心算的数量级：- 仅 GPU：~30 亿美元 - 完整数据中心：~50 亿美元 - 功耗：~0.2 GW - 年用电量：1 TWh - 年电费：~5000 万美元

0 人收藏 0 人点赞

#gpu

@agupta：有些想法在用编码智能体做出概念验证后会清晰得多，例如我直到看了这篇附代码的文章才真正明白 GPU 与 NPU 在设备上如何竞争内存……

X AI KOLs Following ↗ · 2026-04-20 缓存

一条推文指出，编码智能体能帮助阐明复杂概念，并以 GPU 与 NPU 在设备上的内存竞争为例，通过代码进行了演示。

0 人收藏 0 人点赞

#gpu

很遗憾要让大家失望了……目前我们还没有实现AGI所需的硬件

Reddit r/artificial ↗ · 2026-04-20

本文指出，当前的GPU硬件在本质上不足以支撑AGI的实现，计算架构必须进行彻底的重新设计。

0 人收藏 0 人点赞

#gpu

@Prince_Canuma：我的 MLX 与研究家用计算平台：• M3 Ultra — 512GB（由社区与 @wai_protocol 赞助）• RTX PRO 6000 — 96GB…

X AI KOLs Timeline ↗ · 2026-04-19

一位研究人员分享了用于 MLX 和 AI 研究的家用计算配置，包含配备 512GB 的 M3 Ultra、配备 96GB 的 RTX PRO 6000，以及用于模型移植与压力测试的配备 96GB 的 M3 Max。

0 人收藏 0 人点赞

#gpu

现代渲染剔除技术

Hacker News Top ↗ · 2026-04-19 缓存

本文由 Saints Row: The Third Remastered 的一位开发者撰写，详细讲解了包含距离剔除、背面剔除和视锥体剔除在内的现代渲染剔除技术，并为致力于实时图形优化的游戏开发人员提供了宝贵的实践经验。

0 人收藏 0 人点赞

#gpu

vllm-project/vllm v0.19.1

GitHub Releases Watchlist ↗ · 2026-04-18 缓存

vLLM v0.19.1 发布 - 一个快速易用的开源 LLM 推理和服务库，拥有业界领先的吞吐量，支持 200+ 个模型架构以及包括 NVIDIA/AMD GPU 和 CPU 在内的多样化硬件。

0 人收藏 0 人点赞

#gpu

推动开源AI发展，NVIDIA将GPU动态资源分配驱动捐赠给Kubernetes社区

NVIDIA Blog ↗ · 2026-03-24 缓存

NVIDIA正将其GPU动态资源分配（DRA）驱动捐赠给CNCF及Kubernetes社区，使其从厂商主导转变为社区所有。此次捐赠旨在简化Kubernetes中面向AI工作负载的GPU资源管理，并通过与CNCF Confidential Containers社区的协作，为Kata Containers提供GPU支持。

0 人收藏 0 人点赞

#gpu

AMD 和 OpenAI 宣布战略合作伙伴关系，部署 6 吉瓦 AMD GPU

OpenAI Blog ↗ · 2025-10-06 缓存

AMD 和 OpenAI 宣布战略合作伙伴关系，将部署 6 吉瓦 AMD Instinct GPU，初期部署 1 吉瓦，从 2026 年下半年开始。AMD 将向 OpenAI 发行最多 1.6 亿股认股权证，归属与部署里程碑和财务目标挂钩。

0 人收藏 0 人点赞

#gpu

推出 Stargate Norway

OpenAI Blog ↗ · 2025-07-31 缓存

OpenAI 宣布推出 Stargate Norway，这是其在纳尔维克的首个欧洲 AI 数据中心项目，计划到 2026 年底交付 100,000 块 NVIDIA GPU，容量为 230MW，完全由可再生水电驱动。该设施是 Nscale 和 Aker 之间的合资企业，反映了 OpenAI 在欧洲及全球范围内扩展 AI 基础设施合作伙伴关系的更广泛战略。

0 人收藏 0 人点赞

gpu

提交意见反馈