@cryptoresetlife: @support_huihui 在 Mac Studio M3 Ultra (512GB) 上成功部署无审查版 GLM5.2 754B 参数模型 (231GB GGUF),948 tokens / 4分25秒 ≈ 3.6 tokens/s

X AI KOLs Timeline 模型

摘要

无审查版 GLM5.2 754B 参数模型(231GB GGUF)已成功部署在配备512GB内存的 Mac Studio M3 Ultra 上,实现了约3.6 tokens/s的速度。

本地无审查版 GLM5.2 754B 参数模型 231GB 在我的 Mac Studio M3 Ultra 512GB 上部署成功 @support_huihui 948 tokens / 4分25秒 = 948 / 265 ≈ 3.6 tokens/s。M3 Ultra 512GB 依然非常强大。还加载了 deepseek v4 pro ds4、Qwen 3.6 35b、GLM5.2。链接:https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF…
查看原文
查看缓存全文

缓存时间: 2026/06/29 12:27

本地无审核版 GLM5.2 754B 参数模型 231GB 在我的MAC studio M3 ultra 512gb 上部署成功了 @support_huihui 948 tokens / 4分25秒 = 948 / 265 ≈ 3.6 tokens/s M3 ultra 512gb还是牛逼。 塞了 deepseek v4 pro ds4 Qwen 3.6 35b GLM5.2 https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF…

— # huihui-ai/Huihui-GLM-5.2-abliterated-GGUF · Hugging Face 来源:https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF 库 Transformers (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?library=transformers) 如何用 Transformers 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF: # 使用 pipeline 作为高级辅助 from transformers import pipeline pipe = pipeline("text-generation", model="huihui-ai/Huihui-GLM-5.2-abliterated-GGUF") messages = [ {"role": "user", "content": "你是谁?"}, ] pipe(messages) # 直接加载模型 from transformers import AutoModel model = AutoModel.from_pretrained("huihui-ai/Huihui-GLM-5.2-abliterated-GGUF", dtype="auto")

llama-cpp-python (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?library=llama-cpp-python) 如何用 llama-cpp-python 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF: # !pip install llama-cpp-python from llama_cpp import Llama llm = Llama.from_pretrained( repo_id="huihui-ai/Huihui-GLM-5.2-abliterated-GGUF", filename="UD-IQ1_M/GLM-5.2-UD-IQ1_M-00001-of-00006.gguf", ) llm.create_chat_completion( messages = [ { "role": "user", "content": "法国的首都是什么?" } ] )

笔记本 Google Colab (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF/colab) Kaggle (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF/kaggle)

本地应用 设置 (https://huggingface.co/settings/local-apps)

llama.cpp (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?local-app=llama.cpp) 如何用 llama.cpp 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF: ##### 安装(macOS、Linux) curl -LsSf https://llama.app/install.sh | sh # 启动本地 OpenAI 兼容服务器,带 Web UI: llama serve -hf huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M # 在终端直接运行推理: llama cli -hf huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M ##### 通过 WinGet 安装(Windows) winget install llama.cpp # 启动本地 OpenAI 兼容服务器,带 Web UI: llama serve -hf huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M # 在终端直接运行推理: llama cli -hf huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M ##### 使用预编译二进制 # 从以下地址下载预编译二进制: # https://github.com/ggerganov/llama.cpp/releases # 启动本地 OpenAI 兼容服务器,带 Web UI: ./llama-server -hf huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M # 在终端直接运行推理: ./llama-cli -hf huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M ##### 从源码构建 git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp cmake -B build cmake --build build -j --target llama-server llama-cli # 启动本地 OpenAI 兼容服务器,带 Web UI: ./build/bin/llama-server -hf huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M # 在终端直接运行推理: ./build/bin/llama-cli -hf huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M ##### 使用 Docker docker model run hf.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M

LM Studio Jan

vLLM (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?local-app=vllm) 如何用 vLLM 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF: ##### 通过 pip 安装并启动服务 # 通过 pip 安装 vLLM: pip install vllm # 启动 vLLM 服务器: vllm serve "huihui-ai/Huihui-GLM-5.2-abliterated-GGUF" # 使用 curl 调用服务器(兼容 OpenAI API): curl -X POST "http://localhost:8000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "huihui-ai/Huihui-GLM-5.2-abliterated-GGUF", "messages": [ { "role": "user", "content": "法国的首都是什么?" } ] }' ##### 使用 Docker docker model run hf.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M

SGLang (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?local-app=sglang) 如何用 SGLang 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF: ##### 通过 pip 安装并启动服务 # 通过 pip 安装 SGLang: pip install sglang # 启动 SGLang 服务器: python3 -m sglang.launch_server \ --model-path "huihui-ai/Huihui-GLM-5.2-abliterated-GGUF" \ --host 0.0.0.0 \ --port 30000 # 使用 curl 调用服务器(兼容 OpenAI API): curl -X POST "http://localhost:30000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "huihui-ai/Huihui-GLM-5.2-abliterated-GGUF", "messages": [ { "role": "user", "content": "法国的首都是什么?" } ] }' ##### 使用 Docker 镜像 docker run --gpus all \ --shm-size 32g \ -p 30000:30000 \ -v ~/.cache/huggingface:/root/.cache/huggingface \ --env "HF_TOKEN=" \ --ipc=host \ lmsysorg/sglang:latest \ python3 -m sglang.launch_server \ --model-path "huihui-ai/Huihui-GLM-5.2-abliterated-GGUF" \ --host 0.0.0.0 \ --port 30000 # 使用 curl 调用服务器(兼容 OpenAI API): curl -X POST "http://localhost:30000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "huihui-ai/Huihui-GLM-5.2-abliterated-GGUF", "messages": [ { "role": "user", "content": "法国的首都是什么?" } ] }'

Ollama (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?local-app=ollama) 如何用 Ollama 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF: ollama run hf.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M

Unsloth Studio (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?local-app=unsloth) 如何用 Unsloth Studio 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF: ##### 安装 Unsloth Studio(macOS、Linux、WSL) curl -fsSL https://unsloth.ai/install.sh | sh # 运行 Unsloth Studio unsloth studio -H 0.0.0.0 -p 8888 # 然后在浏览器中打开 http://localhost:8888 # 搜索 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF 开始聊天 ##### 安装 Unsloth Studio(Windows) irm https://unsloth.ai/install.ps1 | iex # 运行 Unsloth Studio unsloth studio -H 0.0.0.0 -p 8888 # 然后在浏览器中打开 http://localhost:8888 # 搜索 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF 开始聊天 ##### 使用 HuggingFace Spaces 运行 Unsloth # 无需设置 # 在浏览器中打开 https://huggingface.co/spaces/unsloth/studio # 搜索 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF 开始聊天

Pi (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?local-app=pi) 如何用 Pi 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF: ##### 启动 llama.cpp 服务器 # 安装 llama.cpp: brew install llama.cpp # 启动本地 OpenAI 兼容服务器: llama serve -hf huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M ##### 在 Pi 中配置模型 # 安装 Pi: npm install -g @mariozechner/pi-coding-agent # 添加到 ~/.pi/agent/models.json: { "providers": { "llama-cpp": { "baseUrl": "http://localhost:8080/v1", "api": "openai-completions", "apiKey": "none", "models": [ { "id": "huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M" } ] } } } ##### 运行 Pi # 在项目目录下启动 Pi: pi

Hermes Agent新 (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?local-app=hermes-agent) 如何用 Hermes Agent 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF: ##### 启动 llama.cpp 服务器 # 安装 llama.cpp: brew install llama.cpp # 启动本地 OpenAI 兼容服务器: llama serve -hf huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M ##### 配置 Hermes # 安装 Hermes: curl -fsSL https://hermes-agent.nousresearch.com/install.sh | bash hermes setup # 将 Hermes 指向本地服务器: hermes config set model.provider custom hermes config set model.base_url http://127.0.0.1:8080/v1 hermes config set model.default huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M ##### 运行 Hermes hermes

Atomic Chat新

Docker Model Runner (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?local-app=docker-model-runner) 如何用 Docker Model Runner 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF: docker model run hf.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M

Lemonade (https://huggingface.co/huihui-ai/Huihui-GLM-5.2-abliterated-GGUF?local-app=lemonade) 如何用 Lemonade 使用 huihui-ai/Huihui-GLM-5.2-abliterated-GGUF: ##### 拉取模型 # 从 https://lemonade-server.ai/ 下载 Lemonade lemonade pull huihui-ai/Huihui-GLM-5.2-abliterated-GGUF:UD-IQ1_M ##### 运行并与模型聊天 lemonade run user.Huihui-GLM-5.2-abliterated-GGUF-UD-IQ1_M ##### 列出所有可用模型 lemonade list

相似文章

GLM 5.2 在 Mac Studio 上的提速 PR

Reddit r/LocalLLaMA

GLM 5.2 在配备 512GB RAM 的 Mac Studio 上带来了重大性能提升,在高上下文长度下实现超过 100 t/s 的预填充速度,并支持超过 10 万 token 上下文的 4 位量化,详细信息见 oMLX 创建者的拉取请求。