@cryptoresetlife: @support_huihui 在 Mac Studio M3 Ultra (512GB) 上成功部署无审查版 GLM5.2 754B 参数模型 (231GB GGUF),948 tokens / 4分25秒 ≈ 3.6 tokens/s
摘要
无审查版 GLM5.2 754B 参数模型(231GB GGUF)已成功部署在配备512GB内存的 Mac Studio M3 Ultra 上,实现了约3.6 tokens/s的速度。
查看缓存全文
缓存时间: 2026/06/29 12:27
本地无审核版 GLM5.2 754B 参数模型 231GB 在我的MAC studio M3 ultra 512gb 上部署成功了 @support_huihui 948 tokens / 4分25秒 = 948 / 265 ≈ 3.6 tokens/s M3 ultra 512gb还是牛逼。 塞了 deepseek v4 pro ds4 Qwen 3.6 35b GLM5.2 https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF…
— # huihui-ai/Huihui-GLM-5.2-abliterated-GGUF · Hugging Face 来源:https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF 库 Transformers (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?library=transformers) 如何用 Transformers 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF: # 使用 pipeline 作为高级辅助 from transformers import pipeline pipe = pipeline("text-generation", model="huihui-ai/Huihui-GLM-5.2-abliterated-GGUF") messages = [ {"role": "user", "content": "你是谁?"}, ] pipe(messages) # 直接加载模型 from transformers import AutoModel model = AutoModel.from_pretrained("huihui-ai/Huihui-GLM-5.2-abliterated-GGUF", dtype="auto")
llama-cpp-python (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?library=llama-cpp-python) 如何用 llama-cpp-python 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF: # !pip install llama-cpp-python from llama_cpp import Llama llm = Llama.from_pretrained( repo_id="huihui-ai/Huihui-GLM-5.2-abliterated-GGUF", filename="UD-IQ1_M/GLM-5.2-UD-IQ1_M-00001-of-00006.gguf", ) llm.create_chat_completion( messages = [ { "role": "user", "content": "法国的首都是什么?" } ] )
笔记本 Google Colab (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF/colab) Kaggle (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF/kaggle)
本地应用 设置 (https://huggingface.co/settings/local-apps)
llama.cpp (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?local-app=llama.cpp) 如何用 llama.cpp 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF: ##### 安装(macOS、Linux) curl -LsSf https://llama.app/install.sh | sh # 启动本地 OpenAI 兼容服务器,带 Web UI: llama serve -hf huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M # 在终端直接运行推理: llama cli -hf huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M ##### 通过 WinGet 安装(Windows) winget install llama.cpp # 启动本地 OpenAI 兼容服务器,带 Web UI: llama serve -hf huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M # 在终端直接运行推理: llama cli -hf huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M ##### 使用预编译二进制 # 从以下地址下载预编译二进制: # https://github.com/ggerganov/llama.cpp/releases # 启动本地 OpenAI 兼容服务器,带 Web UI: ./llama-server -hf huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M # 在终端直接运行推理: ./llama-cli -hf huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M ##### 从源码构建 git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp cmake -B build cmake --build build -j --target llama-server llama-cli # 启动本地 OpenAI 兼容服务器,带 Web UI: ./build/bin/llama-server -hf huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M # 在终端直接运行推理: ./build/bin/llama-cli -hf huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M ##### 使用 Docker docker model run hf.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M
vLLM (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?local-app=vllm) 如何用 vLLM 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF: ##### 通过 pip 安装并启动服务 # 通过 pip 安装 vLLM: pip install vllm # 启动 vLLM 服务器: vllm serve "huihui-ai/Huihui-GLM-5.2-abliterated-GGUF" # 使用 curl 调用服务器(兼容 OpenAI API): curl -X POST "http://localhost:8000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "huihui-ai/Huihui-GLM-5.2-abliterated-GGUF", "messages": [ { "role": "user", "content": "法国的首都是什么?" } ] }' ##### 使用 Docker docker model run hf.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M
SGLang (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?local-app=sglang) 如何用 SGLang 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF: ##### 通过 pip 安装并启动服务 # 通过 pip 安装 SGLang: pip install sglang # 启动 SGLang 服务器: python3 -m sglang.launch_server \ --model-path "huihui-ai/Huihui-GLM-5.2-abliterated-GGUF" \ --host 0.0.0.0 \ --port 30000 # 使用 curl 调用服务器(兼容 OpenAI API): curl -X POST "http://localhost:30000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "huihui-ai/Huihui-GLM-5.2-abliterated-GGUF", "messages": [ { "role": "user", "content": "法国的首都是什么?" } ] }' ##### 使用 Docker 镜像 docker run --gpus all \ --shm-size 32g \ -p 30000:30000 \ -v ~/.cache/huggingface:/root/.cache/huggingface \ --env "HF_TOKEN=" \ --ipc=host \ lmsysorg/sglang:latest \ python3 -m sglang.launch_server \ --model-path "huihui-ai/Huihui-GLM-5.2-abliterated-GGUF" \ --host 0.0.0.0 \ --port 30000 # 使用 curl 调用服务器(兼容 OpenAI API): curl -X POST "http://localhost:30000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "huihui-ai/Huihui-GLM-5.2-abliterated-GGUF", "messages": [ { "role": "user", "content": "法国的首都是什么?" } ] }'
Ollama (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?local-app=ollama) 如何用 Ollama 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF: ollama run hf.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M
Unsloth Studio (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?local-app=unsloth) 如何用 Unsloth Studio 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF: ##### 安装 Unsloth Studio(macOS、Linux、WSL) curl -fsSL https://unsloth.ai/install.sh | sh # 运行 Unsloth Studio unsloth studio -H 0.0.0.0 -p 8888 # 然后在浏览器中打开 http://localhost:8888 # 搜索 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF 开始聊天 ##### 安装 Unsloth Studio(Windows) irm https://unsloth.ai/install.ps1 | iex # 运行 Unsloth Studio unsloth studio -H 0.0.0.0 -p 8888 # 然后在浏览器中打开 http://localhost:8888 # 搜索 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF 开始聊天 ##### 使用 HuggingFace Spaces 运行 Unsloth # 无需设置 # 在浏览器中打开 https://huggingface.co/spaces/unsloth/studio # 搜索 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF 开始聊天
Pi (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?local-app=pi) 如何用 Pi 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF: ##### 启动 llama.cpp 服务器 # 安装 llama.cpp: brew install llama.cpp # 启动本地 OpenAI 兼容服务器: llama serve -hf huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M ##### 在 Pi 中配置模型 # 安装 Pi: npm install -g @mariozechner/pi-coding-agent # 添加到 ~/.pi/agent/models.json: { "providers": { "llama-cpp": { "baseUrl": "http://localhost:8080/v1", "api": "openai-completions", "apiKey": "none", "models": [ { "id": "huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M" } ] } } } ##### 运行 Pi # 在项目目录下启动 Pi: pi
Hermes Agent新 (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?local-app=hermes-agent) 如何用 Hermes Agent 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF: ##### 启动 llama.cpp 服务器 # 安装 llama.cpp: brew install llama.cpp # 启动本地 OpenAI 兼容服务器: llama serve -hf huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M ##### 配置 Hermes # 安装 Hermes: curl -fsSL https://hermes-agent.nousresearch.com/install.sh | bash hermes setup # 将 Hermes 指向本地服务器: hermes config set model.provider custom hermes config set model.base_url http://127.0.0.1:8080/v1 hermes config set model.default huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M ##### 运行 Hermes hermes
Docker Model Runner (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?local-app=docker-model-runner) 如何用 Docker Model Runner 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF: docker model run hf.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M
Lemonade (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?local-app=lemonade) 如何用 Lemonade 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF: ##### 拉取模型 # 从 https://lemonade-server.ai/ 下载 Lemonade lemonade pull huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M ##### 运行并与模型聊天 lemonade run user.Huihui-GLM-5.2-abliterated-GGUF-UD-IQ1_M ##### 列出所有可用模型 lemonade list
相似文章
@10xmylife: Unsloth 成功将 2-bit 版本的 GLM-5.2 部署在了 256GB 的 Mac 上
Unsloth 成功将 GLM-5.2 模型以 2-bit 量化压缩至 238GB,可在 256GB Mac 上本地运行,保留约 82% 的准确率。
@UnslothAI: GLM-5.2 现在可以本地运行!2-bit 模型在从 1.51TB 缩小到 238GB(-84% 大小)后保留了约 82% 的准确率…
UnslothAI 宣布 GLM-5.2,Z.ai 的最强开源模型,拥有 744B 参数,现在可以通过动态 GGUF 量化在本地运行,将大小减少约 84% 至 239GB,同时保留约 82% 的准确率。它适用于 256GB Mac 以及 RAM/VRAM 配置,并支持长上下文、推理和代理任务。
@mylifcc: 我已经在mac上用上Gemma-4-12b了,技术栈是: llama.cpp + GGUF Q4_K_M + Metal 32K context,本地 OpenAI-compatible API 实测约 36 tok/s,常驻 RSS 约…
用户分享在Mac上使用llama.cpp配合GGUF Q4_K_M量化版Gemma-4-12b模型的经验,实现了约36 tok/s的本地推理速度和约10GB内存占用。
GLM 5.2 在 Mac Studio 上的提速 PR
GLM 5.2 在配备 512GB RAM 的 Mac Studio 上带来了重大性能提升,在高上下文长度下实现超过 100 t/s 的预填充速度,并支持超过 10 万 token 上下文的 4 位量化,详细信息见 oMLX 创建者的拉取请求。
@pcuenq:GLM 5.2 刚刚发布,现在已经在两台 Mac Studio(M3 Ultra)上通过 MLX 运行。这相当于……
GLM 5.2 是一款与顶级闭源模型相媲美的开放权重 AI 模型,现已发布,并在两台 Mac Studio(M3 Ultra)上通过 MLX 运行。