@cryptoresetlife: @support_huihui 在 Mac Studio M3 Ultra (512GB) 上成功部署无审查版 GLM5.2 754B 参数模型 (231GB GGUF)，948 tokens / 4分25秒 ≈ 3.6 tokens/s

X AI KOLs Timeline 2026/06/29 01:57 模型

gl5-2 754b mac-studio m3-ultra abliterated uncensored deployment

摘要

无审查版 GLM5.2 754B 参数模型（231GB GGUF）已成功部署在配备512GB内存的 Mac Studio M3 Ultra 上，实现了约3.6 tokens/s的速度。

本地无审查版 GLM5.2 754B 参数模型 231GB 在我的 Mac Studio M3 Ultra 512GB 上部署成功 @support_huihui 948 tokens / 4分25秒 = 948 / 265 ≈ 3.6 tokens/s。M3 Ultra 512GB 依然非常强大。还加载了 deepseek v4 pro ds4、Qwen 3.6 35b、GLM5.2。链接：https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF…

查看原文

查看缓存全文

缓存时间: 2026/06/29 12:27

本地无审核版 GLM5.2 754B 参数模型 231GB 在我的MAC studio M3 ultra 512gb 上部署成功了 @support_huihui 948 tokens / 4分25秒 = 948 / 265 ≈ 3.6 tokens/s M3 ultra 512gb还是牛逼。塞了 deepseek v4 pro ds4 Qwen 3.6 35b GLM5.2 https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF…

— # huihui-ai/Huihui-GLM-5.2-abliterated-GGUF · Hugging Face 来源：https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF 库 Transformers (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?library=transformers) 如何用 Transformers 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF： # 使用 pipeline 作为高级辅助 from transformers import pipeline pipe = pipeline("text-generation", model="huihui-ai/Huihui-GLM-5.2-abliterated-GGUF") messages = [ {"role": "user", "content": "你是谁？"}, ] pipe(messages) # 直接加载模型 from transformers import AutoModel model = AutoModel.from_pretrained("huihui-ai/Huihui-GLM-5.2-abliterated-GGUF", dtype="auto")

llama-cpp-python (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?library=llama-cpp-python) 如何用 llama-cpp-python 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF： # !pip install llama-cpp-python from llama_cpp import Llama llm = Llama.from_pretrained( repo_id="huihui-ai/Huihui-GLM-5.2-abliterated-GGUF", filename="UD-IQ1_M/GLM-5.2-UD-IQ1_M-00001-of-00006.gguf", ) llm.create_chat_completion( messages = [ { "role": "user", "content": "法国的首都是什么？" } ] )

笔记本 Google Colab (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF/colab) Kaggle (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF/kaggle)

本地应用设置 (https://huggingface.co/settings/local-apps)

llama.cpp (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?local-app=llama.cpp) 如何用 llama.cpp 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF： ##### 安装（macOS、Linux） curl -LsSf https://llama.app/install.sh | sh # 启动本地 OpenAI 兼容服务器，带 Web UI： llama serve -hf huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M # 在终端直接运行推理： llama cli -hf huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M ##### 通过 WinGet 安装（Windows） winget install llama.cpp # 启动本地 OpenAI 兼容服务器，带 Web UI： llama serve -hf huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M # 在终端直接运行推理： llama cli -hf huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M ##### 使用预编译二进制 # 从以下地址下载预编译二进制： # https://github.com/ggerganov/llama.cpp/releases # 启动本地 OpenAI 兼容服务器，带 Web UI： ./llama-server -hf huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M # 在终端直接运行推理： ./llama-cli -hf huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M ##### 从源码构建 git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp cmake -B build cmake --build build -j --target llama-server llama-cli # 启动本地 OpenAI 兼容服务器，带 Web UI： ./build/bin/llama-server -hf huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M # 在终端直接运行推理： ./build/bin/llama-cli -hf huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M ##### 使用 Docker docker model run hf.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M

LM Studio Jan

vLLM (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?local-app=vllm) 如何用 vLLM 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF： ##### 通过 pip 安装并启动服务 # 通过 pip 安装 vLLM： pip install vllm # 启动 vLLM 服务器： vllm serve "huihui-ai/Huihui-GLM-5.2-abliterated-GGUF" # 使用 curl 调用服务器（兼容 OpenAI API）： curl -X POST "http://localhost:8000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "huihui-ai/Huihui-GLM-5.2-abliterated-GGUF", "messages": [ { "role": "user", "content": "法国的首都是什么？" } ] }' ##### 使用 Docker docker model run hf.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M

SGLang (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?local-app=sglang) 如何用 SGLang 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF： ##### 通过 pip 安装并启动服务 # 通过 pip 安装 SGLang： pip install sglang # 启动 SGLang 服务器： python3 -m sglang.launch_server \ --model-path "huihui-ai/Huihui-GLM-5.2-abliterated-GGUF" \ --host 0.0.0.0 \ --port 30000 # 使用 curl 调用服务器（兼容 OpenAI API）： curl -X POST "http://localhost:30000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "huihui-ai/Huihui-GLM-5.2-abliterated-GGUF", "messages": [ { "role": "user", "content": "法国的首都是什么？" } ] }' ##### 使用 Docker 镜像 docker run --gpus all \ --shm-size 32g \ -p 30000:30000 \ -v ~/.cache/huggingface:/root/.cache/huggingface \ --env "HF_TOKEN=" \ --ipc=host \ lmsysorg/sglang:latest \ python3 -m sglang.launch_server \ --model-path "huihui-ai/Huihui-GLM-5.2-abliterated-GGUF" \ --host 0.0.0.0 \ --port 30000 # 使用 curl 调用服务器（兼容 OpenAI API）： curl -X POST "http://localhost:30000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "huihui-ai/Huihui-GLM-5.2-abliterated-GGUF", "messages": [ { "role": "user", "content": "法国的首都是什么？" } ] }'

Ollama (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?local-app=ollama) 如何用 Ollama 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF： ollama run hf.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M

Unsloth Studio (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?local-app=unsloth) 如何用 Unsloth Studio 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF： ##### 安装 Unsloth Studio（macOS、Linux、WSL） curl -fsSL https://unsloth.ai/install.sh | sh # 运行 Unsloth Studio unsloth studio -H 0.0.0.0 -p 8888 # 然后在浏览器中打开 http://localhost:8888 # 搜索 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF 开始聊天 ##### 安装 Unsloth Studio（Windows） irm https://unsloth.ai/install.ps1 | iex # 运行 Unsloth Studio unsloth studio -H 0.0.0.0 -p 8888 # 然后在浏览器中打开 http://localhost:8888 # 搜索 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF 开始聊天 ##### 使用 HuggingFace Spaces 运行 Unsloth # 无需设置 # 在浏览器中打开 https://huggingface.co/spaces/unsloth/studio # 搜索 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF 开始聊天

Pi (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?local-app=pi) 如何用 Pi 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF： ##### 启动 llama.cpp 服务器 # 安装 llama.cpp： brew install llama.cpp # 启动本地 OpenAI 兼容服务器： llama serve -hf huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M ##### 在 Pi 中配置模型 # 安装 Pi： npm install -g @mariozechner/pi-coding-agent # 添加到 ~/.pi/agent/models.json： { "providers": { "llama-cpp": { "baseUrl": "http://localhost:8080/v1", "api": "openai-completions", "apiKey": "none", "models": [ { "id": "huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M" } ] } } } ##### 运行 Pi # 在项目目录下启动 Pi： pi

Hermes Agent新 (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?local-app=hermes-agent) 如何用 Hermes Agent 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF： ##### 启动 llama.cpp 服务器 # 安装 llama.cpp： brew install llama.cpp # 启动本地 OpenAI 兼容服务器： llama serve -hf huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M ##### 配置 Hermes # 安装 Hermes： curl -fsSL https://hermes-agent.nousresearch.com/install.sh | bash hermes setup # 将 Hermes 指向本地服务器： hermes config set model.provider custom hermes config set model.base_url http://127.0.0.1:8080/v1 hermes config set model.default huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M ##### 运行 Hermes hermes

Atomic Chat新

Docker Model Runner (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?local-app=docker-model-runner) 如何用 Docker Model Runner 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF： docker model run hf.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M

Lemonade (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?local-app=lemonade) 如何用 Lemonade 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF： ##### 拉取模型 # 从 https://lemonade-server.ai/ 下载 Lemonade lemonade pull huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M ##### 运行并与模型聊天 lemonade run user.Huihui-GLM-5.2-abliterated-GGUF-UD-IQ1_M ##### 列出所有可用模型 lemonade list

相似文章

@10xmylife: Unsloth 成功将 2-bit 版本的 GLM-5.2 部署在了 256GB 的 Mac 上

X AI KOLs Following

Unsloth 成功将 GLM-5.2 模型以 2-bit 量化压缩至 238GB，可在 256GB Mac 上本地运行，保留约 82% 的准确率。

@UnslothAI: GLM-5.2 现在可以本地运行！2-bit 模型在从 1.51TB 缩小到 238GB（-84% 大小）后保留了约 82% 的准确率…

X AI KOLs Timeline

UnslothAI 宣布 GLM-5.2，Z.ai 的最强开源模型，拥有 744B 参数，现在可以通过动态 GGUF 量化在本地运行，将大小减少约 84% 至 239GB，同时保留约 82% 的准确率。它适用于 256GB Mac 以及 RAM/VRAM 配置，并支持长上下文、推理和代理任务。

@mylifcc: 我已经在mac上用上Gemma-4-12b了，技术栈是： llama.cpp + GGUF Q4_K_M + Metal 32K context，本地 OpenAI-compatible API 实测约 36 tok/s，常驻 RSS 约…

X AI KOLs Timeline

用户分享在Mac上使用llama.cpp配合GGUF Q4_K_M量化版Gemma-4-12b模型的经验，实现了约36 tok/s的本地推理速度和约10GB内存占用。

GLM 5.2 在 Mac Studio 上的提速 PR

Reddit r/LocalLLaMA

GLM 5.2 在配备 512GB RAM 的 Mac Studio 上带来了重大性能提升，在高上下文长度下实现超过 100 t/s 的预填充速度，并支持超过 10 万 token 上下文的 4 位量化，详细信息见 oMLX 创建者的拉取请求。

@pcuenq：GLM 5.2 刚刚发布，现在已经在两台 Mac Studio（M3 Ultra）上通过 MLX 运行。这相当于……

X AI KOLs Timeline

GLM 5.2 是一款与顶级闭源模型相媲美的开放权重 AI 模型，现已发布，并在两台 Mac Studio（M3 Ultra）上通过 MLX 运行。

相似文章

@10xmylife: Unsloth 成功将 2-bit 版本的 GLM-5.2 部署在了 256GB 的 Mac 上

@UnslothAI: GLM-5.2 现在可以本地运行！2-bit 模型在从 1.51TB 缩小到 238GB（-84% 大小）后保留了约 82% 的准确率…

@mylifcc: 我已经在mac上用上Gemma-4-12b了，技术栈是： llama.cpp + GGUF Q4_K_M + Metal 32K context，本地 OpenAI-compatible API 实测约 36 tok/s，常驻 RSS 约…

GLM 5.2 在 Mac Studio 上的提速 PR

@pcuenq：GLM 5.2 刚刚发布，现在已经在两台 Mac Studio（M3 Ultra）上通过 MLX 运行。这相当于……

提交意见反馈