@10xmylife: Unsloth 成功将 2-bit 版本的 GLM-5.2 部署在了 256GB 的 Mac 上
摘要
Unsloth 成功将 GLM-5.2 模型以 2-bit 量化压缩至 238GB,可在 256GB Mac 上本地运行,保留约 82% 的准确率。
查看缓存全文
缓存时间: 2026/06/20 16:18
Unsloth 成功将 2-bit 版本的 GLM-5.2 部署在了 256GB 的 Mac 上
Unsloth AI (@UnslothAI): GLM-5.2 现在可以在本地运行了!🔥
我们将其从 1.51TB 压缩至 238GB(体积缩小 84%)后,2-bit 模型仍保留了约 82% 的准确率。
可部署在 256GB Mac 或其他内存/显存组合的硬件上。
GLM-5.2 是迄今为止最强的开源模型。
指南:https://t.co/bI7FeeKHDd GGUF:
相似文章
@UnslothAI: GLM-5.2 现在可以本地运行!2-bit 模型在从 1.51TB 缩小到 238GB(-84% 大小)后保留了约 82% 的准确率…
UnslothAI 宣布 GLM-5.2,Z.ai 的最强开源模型,拥有 744B 参数,现在可以通过动态 GGUF 量化在本地运行,将大小减少约 84% 至 239GB,同时保留约 82% 的准确率。它适用于 256GB Mac 以及 RAM/VRAM 配置,并支持长上下文、推理和代理任务。
@AlexFinn:我简直不敢相信这是真的,我的 Mac Studio 上 100% 本地运行 GLM 5.2(2比特量化),得到的结果……
用户报告在 Mac Studio 上本地运行 GLM 5.2(2比特量化),声称其性能优于 Opus 4.8,并实现免费、私密的超级智能,用于编程和智能体任务。
@VincentLogic: 4.66 GB 的模型,居然在本地跑出了麦肯锡咨询顾问的水平? Unsloth 最新的 2-bit Gemma 4 12B,效果真的炸裂。 这不仅仅是聊天,它直接化身“超级 Agent”自主干活: 自主联网搜索引用 15+ 信源 深度区分…
Unsloth 推出 2-bit 量化的 Gemma 4 12B 模型,仅 4.66GB 可在本地运行,具备自主联网搜索、深度分析等类麦肯锡咨询能力。
@mylifcc: 我已经在mac上用上Gemma-4-12b了,技术栈是: llama.cpp + GGUF Q4_K_M + Metal 32K context,本地 OpenAI-compatible API 实测约 36 tok/s,常驻 RSS 约…
用户分享在Mac上使用llama.cpp配合GGUF Q4_K_M量化版Gemma-4-12b模型的经验,实现了约36 tok/s的本地推理速度和约10GB内存占用。
GLM 5.2 on Dual Strix Halo (256GB): Worth it?
本文评测了在双Strix Halo(256GB显存)上运行GLM 5.2(IQ2M量化版本)的性能,生成速度仅约7 token/s,编码任务耗时是DeepSeek V4 Flash的两倍,性价比远不如其他模型,因此不建议在此硬件配置下使用。