标签
提出Block-GTQ,一种感知RoPE的KV缓存量化比特分配方法,通过为高能量RoPE块分配更多比特,提升长上下文性能与内存效率。
NVIDIA 宣布推出 DFlash,一种用于推测解码的开源块扩散模型,在 Blackwell GPU 上可实现高达 15 倍的推理吞吐量提升,同时保持交互性。
Dot Loom 是一个开源协调层,能将多个AI模型整合成一个统一的推理系统,支持多种提供商。它充当路由器、起草者、验证者和最终确定者的角色。
Modal推出了Auto Endpoints,这是一项自助服务,提供优化的、生产级的LLM推理,具备完整代码所有权、透明指标和自动缩放功能,构建于其无服务器GPU基础设施之上。
Modal宣布向所有用户开放托管的私有LLM端点,支持通过UI或CLI轻松部署,并且客户可以完全访问底层代码。
Modal 宣布推出 Auto Endpoints,这是一个用于拥有和部署 AI 推理的新功能。
SGLang 为 DeepSeek-V4 提供了首日支持,LMSys 与 NVIDIA 工程团队的合作在生产环境中实现了高达 5 倍的吞吐量提升,相关改进已在 SemiAnalysis InferenceX 仪表盘上展示。
讨论MoE模型的多层级缓存策略,通过将频繁激活的专家保留在GPU上来提升推理速度,参考了PowerInfer和llama.cpp分支等现有实现。
GLM 5.2 在 Modal 云平台上展现出快速的性能表现。
Prime Intellect发布了prime-rl v0.6.0,支持在万亿参数规模的大型Mixture-of-Experts模型上进行高效强化学习,实现低于5分钟的步骤时间,并对异步强化学习进行了优化。
Groq融资6.5亿美元,在英伟达200亿美元的授权交易和人才挖角之后转向其neocloud业务,招聘新高管并扩展数据中心。
Baseten 每天处理超过10亿次推理调用,并已筹集15亿美元用于扩大其基础设施,凸显推理是一个巨大的市场。
GLM-5.2 在 llama.cpp 上使用 RTX 5090 和 RTX 3090 Ti 运行的速度测试结果,显示在 8k 上下文中预填充速度高达 579 t/s,解码速度约为 10.6 t/s。
不同硬件上推理引擎性能对比:在2x RTX 3090s上从基线迁移到TP=2的vLLM,性能从~14.5 tok/s提升至~64 tok/s;在RTX PRO 6000上迁移到Sglang,性能从~32 tok/s提升至~110 tok/s。推荐在CUDA/多GPU场景使用vLLM/Sglang,在边缘设备使用llama.cpp。
对运行在双AMD Radeon 9700 GPU上的AI推理框架ROCm、Vulkan和vLLM进行比较,可能是在对大型语言模型的性能进行基准测试。
一份关于本地AI硬件在内存容量、带宽和软件栈方面的详细比较,涵盖GPU、Apple Silicon、AMD、Intel、Tenstorrent等,重点关注AI推理中哪些瓶颈最关键。
本文介绍了一台运行六个AI代理(24/7不间断)的配置,设备是Minisforum MS-S1 Max迷你工作站,搭载AMD Ryzen AI Max+ 395芯片,每月电费仅11美元。文章强调从云端API成本转向本地推理,实现始终在线的代理,用于邮件分类、研究监控和文档处理等任务。
Robert Nishihara 强调了一篇关于解耦RL工作负载的论文,表明使用计算优化的H800进行预填充,带宽优化的H20进行解码,可以分别将rollout时间减少21-51%和47%,强调没有单一硬件类型适合所有阶段。