标签
Modular发布了一篇博客文章,解释为什么传统的HTTP路由不适用于LLM推理工作负载。文章描述了他们如何在其分布式推理框架中处理有状态的异构GPU pod(包括KV缓存、专用的预填充/解码后端以及对话级路由),这些是传统无状态路由算法无法解决的。
Modly是一款开源桌面应用,可从图像生成完全纹理化的3D网格,完全在本地GPU上运行,并支持可插拔的AI模型扩展。
Meta的内核内广播优化(IKBO)通过内核-模型-系统协同设计,消除了RecSys推理中的冗余用户嵌入广播,在H100 GPU上实现了高达2/3的延迟降低和约4倍加速,并成为Meta自适应排名模型的骨干。
AMD推出采用CDNA 4架构的Instinct MI350P加速器,采用PCIe形态,但尚未公布定价和上市信息。
Modal 的工程师对 SGLang 调度器在多模态 VLM 工作负载下进行了性能分析,发现将开销较大的 GPU 显存记录操作替换为一个简单的 Python 字典缓存后,吞吐量提升了 16%,延迟降低了超过 13%。该修复已合并至 SGLang v0.5.10。
Anyscale 推出 Agent Skills,帮助编码 Agent 正确部署 Ray 工作负载,妥善处理 GPU 内存并使用最新 API。
Sam Altman 晒出由 ChatGPT Images 2.0 生成的漫画,描绘“GPU 狩猎”,暗示图像生成功能将升级。
vLLM 推出全新设计的 recipes 站点,可把任意 HuggingFace 模型地址一键变成适配指定硬件与任务的即用推理配方。
10 万卡 H100 数据中心的大致估算数字,取整至便于快速心算的数量级:- 仅 GPU:~30 亿美元 - 完整数据中心:~50 亿美元 - 功耗:~0.2 GW - 年用电量:1 TWh - 年电费:~5000 万美元
一条推文指出,编码智能体能帮助阐明复杂概念,并以 GPU 与 NPU 在设备上的内存竞争为例,通过代码进行了演示。
一位研究人员分享了用于 MLX 和 AI 研究的家用计算配置,包含配备 512GB 的 M3 Ultra、配备 96GB 的 RTX PRO 6000,以及用于模型移植与压力测试的配备 96GB 的 M3 Max。
本文由 Saints Row: The Third Remastered 的一位开发者撰写,详细讲解了包含距离剔除、背面剔除和视锥体剔除在内的现代渲染剔除技术,并为致力于实时图形优化的游戏开发人员提供了宝贵的实践经验。
vLLM v0.19.1 发布 - 一个快速易用的开源 LLM 推理和服务库,拥有业界领先的吞吐量,支持 200+ 个模型架构以及包括 NVIDIA/AMD GPU 和 CPU 在内的多样化硬件。
NVIDIA正将其GPU动态资源分配(DRA)驱动捐赠给CNCF及Kubernetes社区,使其从厂商主导转变为社区所有。此次捐赠旨在简化Kubernetes中面向AI工作负载的GPU资源管理,并通过与CNCF Confidential Containers社区的协作,为Kata Containers提供GPU支持。
AMD 和 OpenAI 宣布战略合作伙伴关系,将部署 6 吉瓦 AMD Instinct GPU,初期部署 1 吉瓦,从 2026 年下半年开始。AMD 将向 OpenAI 发行最多 1.6 亿股认股权证,归属与部署里程碑和财务目标挂钩。
OpenAI 宣布推出 Stargate Norway,这是其在纳尔维克的首个欧洲 AI 数据中心项目,计划到 2026 年底交付 100,000 块 NVIDIA GPU,容量为 230MW,完全由可再生水电驱动。该设施是 Nscale 和 Aker 之间的合资企业,反映了 OpenAI 在欧洲及全球范围内扩展 AI 基础设施合作伙伴关系的更广泛战略。