标签
Mimo 2.5 使用双 RTX Pro 6000 GPU 展示了在大上下文窗口下的快速性能。
Modal推出了Auto Endpoints,这是一项自助服务,提供优化的、生产级的LLM推理,具备完整代码所有权、透明指标和自动缩放功能,构建于其无服务器GPU基础设施之上。
NVIDIA技术现已为全球500强最快超级计算机中的400多台提供动力(占TOP500的81%),GPU和网络采用率创下纪录,并在Green500榜单上获得最高效率。
据报道,SpaceX与Reflection AI签署了一项63亿美元的计算交易,确保其在2029年前获得位于孟菲斯Colossus集群的Nvidia GB300 GPU使用权。
使用TurboQuant,用户在GTX1060 3GB上以20 tokens/秒运行Qwen 3.6 35B MoE模型,展现了在陈旧硬件上令人印象深刻的性能。
两大主流LLM服务框架SGLang和vLLM的详细技术对比,涵盖KV缓存管理(RadixAttention vs PagedAttention)的架构差异、吞吐量、延迟以及自托管环境的部署考量。
GLM-5.2 在 llama.cpp 上使用 RTX 5090 和 RTX 3090 Ti 运行的速度测试结果,显示在 8k 上下文中预填充速度高达 579 t/s,解码速度约为 10.6 t/s。
作者构建了Prompt-Chain,这是一个Streamlit应用,它将一个小型prompter模型和一个大型coder模型串联起来,并自动交换VRAM,从而在8GB GPU上实现高效的代码生成。
JP摩根发布ASIC行业报告,预测AI定制芯片进入黄金周期,Broadcom和Marvell是最大受益者,并预计到2027年AI ASIC出货量将首次超过GPU。
不同硬件上推理引擎性能对比:在2x RTX 3090s上从基线迁移到TP=2的vLLM,性能从~14.5 tok/s提升至~64 tok/s;在RTX PRO 6000上迁移到Sglang,性能从~32 tok/s提升至~110 tok/s。推荐在CUDA/多GPU场景使用vLLM/Sglang,在边缘设备使用llama.cpp。
一份关于本地AI硬件在内存容量、带宽和软件栈方面的详细比较,涵盖GPU、Apple Silicon、AMD、Intel、Tenstorrent等,重点关注AI推理中哪些瓶颈最关键。
关于即将推出的 AMD GPU 产品及其搭建 LLM 机器潜力的讨论,并向社区征求构建建议。
MSI的RTX 5090 GPU在推理或训练时功耗为475-500W,并附有关于线缆弯折的警告。
一条推广Qwen 3.6 27b模型并推荐UnslothAI在任何GPU上运行它的推文。
解释多GPU系统的通信模型,涵盖延迟与带宽之间的权衡,并比较MST和Ring算法在广播等集合操作中的应用。
兴奋地分享 cuTile Rust,将 Rust 的无畏并发性引入 GPU 内核编程。他们的论文《Fearless Concurrency on the GPU》现已发布在 arXiv 上。
FMAG是一个单指令(带保护的融合乘加)GPU虚拟机,消除了线程分歧,允许在GPU上高效地逐元素解释任意程序。它包含用于编写和运行此类程序的工具链和库。