标签
Ollama在其美国云上为GLM 5.2将GPU容量翻倍,使用NVIDIA B300 Blackwell GPU,强调隐私和开放模型。
Hippocratic AI 与 Modular 合作,使用 MAX 框架对大型语言模型进行推理,实现了低于 500 毫秒的平均 TTFT,P99 延迟提升约 30%,大规模下的平均延迟提升约 22%(在 NVIDIA B300 GPU 上),并且可移植到 AMD。