@ollama: GLM 5.2在Ollama的云上刚刚将GPU容量翻倍以应对使用量!这一切都基于美国,运行在…
摘要
Ollama在其美国云上为GLM 5.2将GPU容量翻倍,使用NVIDIA B300 Blackwell GPU,强调隐私和开放模型。
GLM 5.2在Ollama的云上刚刚将GPU容量翻倍以应对使用量!
这一切都基于美国,并在NVIDIA B300 Blackwell GPU上运行。我们相信隐私很重要!
支持开放模型!❤️
查看缓存全文
缓存时间: 2026/06/20 22:24
GLM 5.2 on Ollama’s cloud 刚刚将GPU容量翻倍以应对使用量!
这一切都基于美国,运行在NVIDIA B300 Blackwell GPU上。我们相信隐私至关重要!
支持开源模型!❤️
相似文章
在仅有CPU的情况下本地运行GLM-5.2!(穷人的大型模型方案)
一位用户仅用CPU在本地运行GLM-5.2,演示如何在简陋的配置上运行大型模型。
GLM 5.2 API 已上线,权重已上传至 HF,Ollama 也已支持
GLM 5.2 已发布,采用 MIT 许可协议在 HuggingFace 上开放权重,可通过 API 和 Ollama 获取,其基准测试结果具有竞争力,仅落后 Opus 4.8 一个点,领先 GPT-5.5 一个点。
@0xSero: 欢呼吧,各位6000系列爱好者。我们家里有GLM了
一套现成的Docker配置,用于在4块RTX PRO 6000 Blackwell GPU上通过vLLM部署GLM-5.2-NVFP4-REAP-469B模型,包含详细说明和配置选项。
@UnslothAI: GLM-5.2 现在可以本地运行!2-bit 模型在从 1.51TB 缩小到 238GB(-84% 大小)后保留了约 82% 的准确率…
UnslothAI 宣布 GLM-5.2,Z.ai 的最强开源模型,拥有 744B 参数,现在可以通过动态 GGUF 量化在本地运行,将大小减少约 84% 至 239GB,同时保留约 82% 的准确率。它适用于 256GB Mac 以及 RAM/VRAM 配置,并支持长上下文、推理和代理任务。
@tom_doerr: 在单个4GB GPU上运行70B大语言模型 https://github.com/lyogavin/airllm
AirLLM是一个开源工具,优化推理内存使用,无需量化即可在单个4GB GPU上运行70B大语言模型,并支持在8GB显存上运行405B模型。