gpu

标签

Cards List
#gpu

@Modular:HTTP路由问题已经解决了多年。然后大语言模型出现了。它们的后端不是可互换的…

X AI KOLs Following · 昨天 缓存

Modular发布了一篇博客文章,解释为什么传统的HTTP路由不适用于LLM推理工作负载。文章描述了他们如何在其分布式推理框架中处理有状态的异构GPU pod(包括KV缓存、专用的预填充/解码后端以及对话级路由),这些是传统无状态路由算法无法解决的。

0 人收藏 0 人点赞
#gpu

@oliviscusAI: 有人刚刚开源了一款桌面应用,它可以通过图像生成3D模型,并且完全本地运行。它叫Modly。…

X AI KOLs Timeline · 昨天

Modly是一款开源桌面应用,可从图像生成完全纹理化的3D网格,完全在本地GPU上运行,并支持可插拔的AI模型扩展。

0 人收藏 0 人点赞
#gpu

Meta的优化版RecSys推理(58分钟阅读)

TLDR AI · 昨天 缓存

Meta的内核内广播优化(IKBO)通过内核-模型-系统协同设计,消除了RecSys推理中的冗余用户嵌入广播,在H100 GPU上实现了高达2/3的延迟降低和约4倍加速,并成为Meta自适应排名模型的骨干。

0 人收藏 0 人点赞
#gpu

AMD将发布可插拔GPU

Reddit r/LocalLLaMA · 2天前

AMD即将发布基于PCIe的新型可插拔Instinct GPU,面向企业AI市场,为本地大语言模型部署提供潜在的新硬件选择。

0 人收藏 0 人点赞
#gpu

AMD推出Instinct MI350P加速器:CDNA 4架构登陆PCIe卡

Reddit r/LocalLLaMA · 2天前

AMD推出采用CDNA 4架构的Instinct MI350P加速器,采用PCIe形态,但尚未公布定价和上市信息。

0 人收藏 0 人点赞
#gpu

用一个 Python 字典将多模态推理性能提升超 10%

Hacker News Top · 3天前 缓存

Modal 的工程师对 SGLang 调度器在多模态 VLM 工作负载下进行了性能分析,发现将开销较大的 GPU 显存记录操作替换为一个简单的 Python 字典缓存后,吞吐量提升了 16%,延迟降低了超过 13%。该修复已合并至 SGLang v0.5.10。

0 人收藏 0 人点赞
#gpu

@anyscalecompute:大多数编码 Agent 都会写 Python,但这不代表它们会部署 Ray 工作负载

X AI KOLs Following · 2026-04-22 缓存

Anyscale 推出 Agent Skills,帮助编码 Agent 正确部署 Ray 工作负载,妥善处理 GPU 内存并使用最新 API。

0 人收藏 0 人点赞
#gpu

@sama:这是用 ChatGPT Images 2.0 制作的漫画,讲述@gabeeegoooh 和我一起寻找更多 GPU 的故事:

X AI KOLs · 2026-04-21 缓存

Sam Altman 晒出由 ChatGPT Images 2.0 生成的漫画,描绘“GPU 狩猎”,暗示图像生成功能将升级。

0 人收藏 0 人点赞
#gpu

@vllm_project:我们刚刚上线了 http://recipes.vllm.ai 的重大改版。“如何在硬件 Y 上为任务 Z 运行模型 X?”现在有了……

X AI KOLs Following · 2026-04-21

vLLM 推出全新设计的 recipes 站点,可把任意 HuggingFace 模型地址一键变成适配指定硬件与任务的即用推理配方。

0 人收藏 0 人点赞
#gpu

@gabriel1:10 万卡 H100 数据中心的大致估算数字,取整至便于快速心算的数量级……

X AI KOLs Following · 2026-04-21 缓存

10 万卡 H100 数据中心的大致估算数字,取整至便于快速心算的数量级:- 仅 GPU:~30 亿美元 - 完整数据中心:~50 亿美元 - 功耗:~0.2 GW - 年用电量:1 TWh - 年电费:~5000 万美元

0 人收藏 0 人点赞
#gpu

@agupta:有些想法在用编码智能体做出概念验证后会清晰得多,例如我直到看了这篇附代码的文章才真正明白 GPU 与 NPU 在设备上如何竞争内存……

X AI KOLs Following · 2026-04-20 缓存

一条推文指出,编码智能体能帮助阐明复杂概念,并以 GPU 与 NPU 在设备上的内存竞争为例,通过代码进行了演示。

0 人收藏 0 人点赞
#gpu

很遗憾要让大家失望了……目前我们还没有实现AGI所需的硬件

Reddit r/artificial · 2026-04-20

本文指出,当前的GPU硬件在本质上不足以支撑AGI的实现,计算架构必须进行彻底的重新设计。

0 人收藏 0 人点赞
#gpu

@Prince_Canuma:我的 MLX 与研究家用计算平台:• M3 Ultra — 512GB(由社区与 @wai_protocol 赞助)• RTX PRO 6000 — 96GB…

X AI KOLs Timeline · 2026-04-19

一位研究人员分享了用于 MLX 和 AI 研究的家用计算配置,包含配备 512GB 的 M3 Ultra、配备 96GB 的 RTX PRO 6000,以及用于模型移植与压力测试的配备 96GB 的 M3 Max。

0 人收藏 0 人点赞
#gpu

现代渲染剔除技术

Hacker News Top · 2026-04-19 缓存

本文由 Saints Row: The Third Remastered 的一位开发者撰写,详细讲解了包含距离剔除、背面剔除和视锥体剔除在内的现代渲染剔除技术,并为致力于实时图形优化的游戏开发人员提供了宝贵的实践经验。

0 人收藏 0 人点赞
#gpu

vllm-project/vllm v0.19.1

GitHub Releases Watchlist · 2026-04-18 缓存

vLLM v0.19.1 发布 - 一个快速易用的开源 LLM 推理和服务库,拥有业界领先的吞吐量,支持 200+ 个模型架构以及包括 NVIDIA/AMD GPU 和 CPU 在内的多样化硬件。

0 人收藏 0 人点赞
#gpu

推动开源AI发展,NVIDIA将GPU动态资源分配驱动捐赠给Kubernetes社区

NVIDIA Blog · 2026-03-24 缓存

NVIDIA正将其GPU动态资源分配(DRA)驱动捐赠给CNCF及Kubernetes社区,使其从厂商主导转变为社区所有。此次捐赠旨在简化Kubernetes中面向AI工作负载的GPU资源管理,并通过与CNCF Confidential Containers社区的协作,为Kata Containers提供GPU支持。

0 人收藏 0 人点赞
#gpu

AMD 和 OpenAI 宣布战略合作伙伴关系,部署 6 吉瓦 AMD GPU

OpenAI Blog · 2025-10-06 缓存

AMD 和 OpenAI 宣布战略合作伙伴关系,将部署 6 吉瓦 AMD Instinct GPU,初期部署 1 吉瓦,从 2026 年下半年开始。AMD 将向 OpenAI 发行最多 1.6 亿股认股权证,归属与部署里程碑和财务目标挂钩。

0 人收藏 0 人点赞
#gpu

推出 Stargate Norway

OpenAI Blog · 2025-07-31 缓存

OpenAI 宣布推出 Stargate Norway,这是其在纳尔维克的首个欧洲 AI 数据中心项目,计划到 2026 年底交付 100,000 块 NVIDIA GPU,容量为 230MW,完全由可再生水电驱动。该设施是 Nscale 和 Aker 之间的合资企业,反映了 OpenAI 在欧洲及全球范围内扩展 AI 基础设施合作伙伴关系的更广泛战略。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈