@10xmylife: Unsloth 成功将 2-bit 版本的 GLM-5.2 部署在了 256GB 的 Mac 上

X AI KOLs Following 2026/06/19 06:16 模型

glm-5.2 2-bit-quantization local-inference unsloth open-source mac

摘要

Unsloth 成功将 GLM-5.2 模型以 2-bit 量化压缩至 238GB，可在 256GB Mac 上本地运行，保留约 82% 的准确率。

Unsloth 成功将 2-bit 版本的 GLM-5.2 部署在了 256GB 的 Mac 上

查看原文

查看缓存全文

缓存时间: 2026/06/20 16:18

Unsloth 成功将 2-bit 版本的 GLM-5.2 部署在了 256GB 的 Mac 上

Unsloth AI (@UnslothAI): GLM-5.2 现在可以在本地运行了！🔥

我们将其从 1.51TB 压缩至 238GB（体积缩小 84%）后，2-bit 模型仍保留了约 82% 的准确率。

可部署在 256GB Mac 或其他内存/显存组合的硬件上。

GLM-5.2 是迄今为止最强的开源模型。

指南：https://t.co/bI7FeeKHDd GGUF：

相似文章

@UnslothAI: GLM-5.2 现在可以本地运行！2-bit 模型在从 1.51TB 缩小到 238GB（-84% 大小）后保留了约 82% 的准确率…

X AI KOLs Timeline

UnslothAI 宣布 GLM-5.2，Z.ai 的最强开源模型，拥有 744B 参数，现在可以通过动态 GGUF 量化在本地运行，将大小减少约 84% 至 239GB，同时保留约 82% 的准确率。它适用于 256GB Mac 以及 RAM/VRAM 配置，并支持长上下文、推理和代理任务。

@AlexFinn：我简直不敢相信这是真的，我的 Mac Studio 上 100% 本地运行 GLM 5.2（2比特量化），得到的结果……

X AI KOLs Following

用户报告在 Mac Studio 上本地运行 GLM 5.2（2比特量化），声称其性能优于 Opus 4.8，并实现免费、私密的超级智能，用于编程和智能体任务。

@VincentLogic: 4.66 GB 的模型，居然在本地跑出了麦肯锡咨询顾问的水平？ Unsloth 最新的 2-bit Gemma 4 12B，效果真的炸裂。这不仅仅是聊天，它直接化身“超级 Agent”自主干活：自主联网搜索引用 15+ 信源深度区分…

X AI KOLs Timeline

Unsloth 推出 2-bit 量化的 Gemma 4 12B 模型，仅 4.66GB 可在本地运行，具备自主联网搜索、深度分析等类麦肯锡咨询能力。

@mylifcc: 我已经在mac上用上Gemma-4-12b了，技术栈是： llama.cpp + GGUF Q4_K_M + Metal 32K context，本地 OpenAI-compatible API 实测约 36 tok/s，常驻 RSS 约…

X AI KOLs Timeline

用户分享在Mac上使用llama.cpp配合GGUF Q4_K_M量化版Gemma-4-12b模型的经验，实现了约36 tok/s的本地推理速度和约10GB内存占用。

GLM 5.2 on Dual Strix Halo (256GB): Worth it?

Reddit r/LocalLLaMA

本文评测了在双Strix Halo（256GB显存）上运行GLM 5.2（IQ2M量化版本）的性能，生成速度仅约7 token/s，编码任务耗时是DeepSeek V4 Flash的两倍，性价比远不如其他模型，因此不建议在此硬件配置下使用。

相似文章

@UnslothAI: GLM-5.2 现在可以本地运行！2-bit 模型在从 1.51TB 缩小到 238GB（-84% 大小）后保留了约 82% 的准确率…

@AlexFinn：我简直不敢相信这是真的，我的 Mac Studio 上 100% 本地运行 GLM 5.2（2比特量化），得到的结果……

@VincentLogic: 4.66 GB 的模型，居然在本地跑出了麦肯锡咨询顾问的水平？ Unsloth 最新的 2-bit Gemma 4 12B，效果真的炸裂。 这不仅仅是聊天，它直接化身“超级 Agent”自主干活： 自主联网搜索引用 15+ 信源 深度区分…

@mylifcc: 我已经在mac上用上Gemma-4-12b了，技术栈是： llama.cpp + GGUF Q4_K_M + Metal 32K context，本地 OpenAI-compatible API 实测约 36 tok/s，常驻 RSS 约…

GLM 5.2 on Dual Strix Halo (256GB): Worth it?

提交意见反馈

@VincentLogic: 4.66 GB 的模型，居然在本地跑出了麦肯锡咨询顾问的水平？ Unsloth 最新的 2-bit Gemma 4 12B，效果真的炸裂。这不仅仅是聊天，它直接化身“超级 Agent”自主干活：自主联网搜索引用 15+ 信源深度区分…