标签
由Databricks前AI负责人Naveen Rao领导的Unconventional AI公司声称,其基于振荡器的计算机架构可将AI推理能耗降低多达1000倍,并已通过其首个图像生成模型Un0进行了验证。
探讨了Transformer推理中KV缓存日益增长的内存瓶颈,解释了为何像Mamba和RWKV这样的固定大小内存的替代架构重新获得关注。
作者在4× DGX Spark (GB10)设备上成功运行了配备MTP投机解码的GLM-5.2,并揭示了公开构建配方中缺失的一个组件。
Modal 宣布推出 Auto Endpoints,实现轻松推理,开发者 Anthony Corletti 称赞其为计算、存储和网络之上的一流抽象。
Sipp 是一个开源库,利用 llama.cpp 实现浏览器内推理,使 AI 模型能够直接在浏览器中运行。
Antirez宣布合并实现GLM 5.2的分支可能性很高,这可能成为运行在512GB Mac Studio上的最佳模型,并可能通过2位量化在分布式128GB MacBook上运行。
提出Block-GTQ,一种感知RoPE的KV缓存量化比特分配方法,通过为高能量RoPE块分配更多比特,提升长上下文性能与内存效率。
NVIDIA 宣布推出 DFlash,一种用于推测解码的开源块扩散模型,在 Blackwell GPU 上可实现高达 15 倍的推理吞吐量提升,同时保持交互性。
关于在单台DGX Spark上使用sglang推理和自定义mega-kernel以11 tok/s运行未量化的DeepSeek-v4-Flash模型的更新,正在向GLM-5.2迈进。
Dot Loom 是一个开源协调层,能将多个AI模型整合成一个统一的推理系统,支持多种提供商。它充当路由器、起草者、验证者和最终确定者的角色。
Modal推出了Auto Endpoints,这是一项自助服务,提供优化的、生产级的LLM推理,具备完整代码所有权、透明指标和自动缩放功能,构建于其无服务器GPU基础设施之上。
OpenInspect 支持完全自托管的背景代理系统,在 Modal Endpoints 上使用 GLM-5.2,强调对推理基础设施的所有权。
Modal宣布向所有用户开放托管的私有LLM端点,支持通过UI或CLI轻松部署,并且客户可以完全访问底层代码。
Modal 宣布推出 Auto Endpoints,这是一项可通过一键实现优化的开源 AI 推理的服务,旨在对抗专有模型和服务的趋势。
Modal 宣布推出 Auto Endpoints,这是一个用于拥有和部署 AI 推理的新功能。
SGLang 为 DeepSeek-V4 提供了首日支持,LMSys 与 NVIDIA 工程团队的合作在生产环境中实现了高达 5 倍的吞吐量提升,相关改进已在 SemiAnalysis InferenceX 仪表盘上展示。
讨论MoE模型的多层级缓存策略,通过将频繁激活的专家保留在GPU上来提升推理速度,参考了PowerInfer和llama.cpp分支等现有实现。
GLM 5.2 在 Modal 云平台上展现出快速的性能表现。
Prime Intellect发布了prime-rl v0.6.0,支持在万亿参数规模的大型Mixture-of-Experts模型上进行高效强化学习,实现低于5分钟的步骤时间,并对异步强化学习进行了优化。