@aisearchio: GLM 5.2 GGUF 已经来了!8位版本大小约为完整模型的一半。更小版本即将推出 https://huggingfa…
摘要
GLM 5.2 GGUF 量化模型已发布,8位版本大小约为完整模型的一半;更小版本即将推出。
查看缓存全文
缓存时间: 2026/06/18 02:06
GLM 5.2 GGUF 现已上线!8-bit 版本大小约为完整模型的一半。更小版本即将推出 https://t.co/z2mPAFcB2f https://t.co/HEZFD20Lc1 — # unsloth/GLM-5.2-GGUF · Hugging Face 来源:https://huggingface.co/unsloth/GLM-5.2-GGUF 库Transformers (https://huggingface.co/unsloth/GLM-5.2-GGUF?library=transformers)如何将 unsloth/GLM-5.2-GGUF 与 Transformers 配合使用: # 使用 pipeline 作为高级辅助工具 from transformers import pipeline pipe = pipeline("text-generation", model="unsloth/GLM-5.2-GGUF") messages = [ {"role": "user", "content": "你是谁?"}, ] pipe(messages) # 直接加载模型 from transformers import AutoModel model = AutoModel.from_pretrained("unsloth/GLM-5.2-GGUF", dtype="auto") llama-cpp-python (https://huggingface.co/unsloth/GLM-5.2-GGUF?library=llama-cpp-python)如何将 unsloth/GLM-5.2-GGUF 与 llama-cpp-python 配合使用: # !pip install llama-cpp-python from llama_cpp import Llama llm = Llama.from_pretrained( repo_id="unsloth/GLM-5.2-GGUF", filename="BF16/GLM-5.2-BF16-00001-of-00033.gguf", ) llm.create_chat_completion( messages = [ { "role": "user", "content": "法国的首都是哪里?" } ] ) 笔记本Google Colab (https://huggingface.co/unsloth/GLM-5.2-GGUF/colab)Kaggle (https://huggingface.co/unsloth/GLM-5.2-GGUF/kaggle)本地应用设置 (https://huggingface.co/settings/local-apps)llama.cpp (https://huggingface.co/unsloth/GLM-5.2-GGUF?local-app=llama.cpp)如何将 unsloth/GLM-5.2-GGUF 与 llama.cpp 配合使用: ##### 通过 brew 安装 brew install llama.cpp # 启动本地兼容 OpenAI 的服务器(带 Web UI): llama-server -hf unsloth/GLM-5.2-GGUF:UD-Q4_K_XL # 直接在终端中运行推理: llama-cli -hf unsloth/GLM-5.2-GGUF:UD-Q4_K_XL ##### 通过 WinGet(Windows)安装 winget install llama.cpp # 启动本地兼容 OpenAI 的服务器(带 Web UI): llama-server -hf unsloth/GLM-5.2-GGUF:UD-Q4_K_XL # 直接在终端中运行推理: llama-cli -hf unsloth/GLM-5.2-GGUF:UD-Q4_K_XL ##### 使用预编译二进制文件 # 从以下地址下载预编译二进制文件: # https://github.com/ggerganov/llama.cpp/releases # 启动本地兼容 OpenAI 的服务器(带 Web UI): ./llama-server -hf unsloth/GLM-5.2-GGUF:UD-Q4_K_XL # 直接在终端中运行推理: ./llama-cli -hf unsloth/GLM-5.2-GGUF:UD-Q4_K_XL ##### 从源代码编译 git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp cmake -B build cmake --build build -j --target llama-server llama-cli # 启动本地兼容 OpenAI 的服务器(带 Web UI): ./build/bin/llama-server -hf unsloth/GLM-5.2-GGUF:UD-Q4_K_XL # 直接在终端中运行推理: ./build/bin/llama-cli -hf unsloth/GLM-5.2-GGUF:UD-Q4_K_XL ##### 使用 Docker docker model run hf.co/unsloth/GLM-5.2-GGUF:UD-Q4_K_XL LM StudioJanvLLM (https://huggingface.co/unsloth/GLM-5.2-GGUF?local-app=vllm)如何将 unsloth/GLM-5.2-GGUF 与 vLLM 配合使用: ##### 通过 pip 安装并提供模型服务 # 通过 pip 安装 vLLM: pip install vllm # 启动 vLLM 服务器: vllm serve "unsloth/GLM-5.2-GGUF" # 使用 curl 调用服务器(兼容 OpenAI 的 API): curl -X POST "http://localhost:8000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "unsloth/GLM-5.2-GGUF", "messages": [ { "role": "user", "content": "法国的首都是哪里?" } ] }' ##### 使用 Docker docker model run hf.co/unsloth/GLM-5.2-GGUF:UD-Q4_K_XL SGLang (https://huggingface.co/unsloth/GLM-5.2-GGUF?local-app=sglang)如何将 unsloth/GLM-5.2-GGUF 与 SGLang 配合使用: ##### 通过 pip 安装并提供模型服务 # 通过 pip 安装 SGLang: pip install sglang # 启动 SGLang 服务器: python3 -m sglang.launch_server \ --model-path "unsloth/GLM-5.2-GGUF" \ --host 0.0.0.0 \ --port 30000 # 使用 curl 调用服务器(兼容 OpenAI 的 API): curl -X POST "http://localhost:30000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "unsloth/GLM-5.2-GGUF", "messages": [ { "role": "user", "content": "法国的首都是哪里?" } ] }' ##### 使用 Docker 镜像 docker run --gpus all \ --shm-size 32g \ -p 30000:30000 \ -v ~/.cache/huggingface:/root/.cache/huggingface \ --env "HF_TOKEN=" \ --ipc=host \ lmsysorg/sglang:latest \ python3 -m sglang.launch_server \ --model-path "unsloth/GLM-5.2-GGUF" \ --host 0.0.0.0 \ --port 30000 # 使用 curl 调用服务器(兼容 OpenAI 的 API): curl -X POST "http://localhost:30000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "unsloth/GLM-5.2-GGUF", "messages": [ { "role": "user", "content": "法国的首都是哪里?" } ] }' Ollama (https://huggingface.co/unsloth/GLM-5.2-GGUF?local-app=ollama)如何将 unsloth/GLM-5.2-GGUF 与 Ollama 配合使用: ollama run hf.co/unsloth/GLM-5.2-GGUF:UD-Q4_K_XL Unsloth Studio (https://huggingface.co/unsloth/GLM-5.2-GGUF?local-app=unsloth)如何将 unsloth/GLM-5.2-GGUF 与 Unsloth Studio 配合使用: ##### 安装 Unsloth Studio(macOS、Linux、WSL) curl -fsSL https://unsloth.ai/install.sh | sh # 运行 unsloth studio unsloth studio -H 0.0.0.0 -p 8888 # 然后在浏览器中打开 http://localhost:8888 # 搜索 unsloth/GLM-5.2-GGUF 开始聊天 ##### 安装 Unsloth Studio(Windows) irm https://unsloth.ai/install.ps1 | iex # 运行 unsloth studio unsloth studio -H 0.0.0.0 -p 8888 # 然后在浏览器中打开 http://localhost:8888 # 搜索 unsloth/GLM-5.2-GGUF 开始聊天 ##### 使用 HuggingFace Spaces 运行 Unsloth # 无需设置 # 在浏览器中打开 https://huggingface.co/spaces/unsloth/studio # 搜索 unsloth/GLM-5.2-GGUF 开始聊天 Pi (https://huggingface.co/unsloth/GLM-5.2-GGUF?local-app=pi)如何将 unsloth/GLM-5.2-GGUF 与 Pi 配合使用: ##### 启动 llama.cpp 服务器 # 安装 llama.cbrew install llama.cpp # 启动本地兼容 OpenAI 的服务器: llama-server -hf unsloth/GLM-5.2-GGUF:UD-Q4_K_XL ##### 在 Pi 中配置模型 # 安装 Pi: npm install -g @mariozechner/pi-coding-agent # 添加到 ~/.pi/agent/models.json: { "providers": { "llama-cpp": { "baseUrl": "http://localhost:8080/v1", "api": "openai-completions", "apiKey": "none", "models": [ { "id": "unsloth/GLM-5.2-GGUF:UD-Q4_K_XL" } ] } } } ##### 运行 Pi # 在项目目录中启动 Pi: pi Hermes Agent新增 (https://huggingface.co/unsloth/GLM-5.2-GGUF?local-app=hermes-agent)如何将 unsloth/GLM-5.2-GGUF 与 Hermes Agent 配合使用: ##### 启动 llama.cpp 服务器 # 安装 llama.cbrew install llama.cpp # 启动本地兼容 OpenAI 的服务器: llama-server -hf unsloth/GLM-5.2-GGUF:UD-Q4_K_XL ##### 配置 Hermes # 安装 Hermes: curl -fsSL https://hermes-agent.nousresearch.com/install.sh | bash hermes setup # 将 Hermes 指向本地服务器: hermes config set model.provider custom hermes config set model.base_url http://127.0.0.1:8080/v1 hermes config set model.default unsloth/GLM-5.2-GGUF:UD-Q4_K_XL ##### 运行 Hermes hermes Atomic Chat新增Docker Model Runner (https://huggingface.co/unsloth/GLM-5.2-GGUF?local-app=docker-model-runner)如何将 unsloth/GLM-5.2-GGUF 与 Docker Model Runner 配合使用: docker model run hf.co/unsloth/GLM-5.2-GGUF:UD-Q4_K_XL Lemonade (https://huggingface.co/unsloth/GLM-5.2-GGUF?local-app=lemonade)如何将 unsloth/GLM-5.2-GGUF 与 Lemonade 配合使用: ##### 拉取模型 # 从 https://lemonade-server.ai/ 下载 Lemonade lemonade pull unsloth/GLM-5.2-GGUF:UD-Q4_K_XL ##### 运行并与模型聊天 lemonade run user.GLM-5.2-GGUF-UD-Q4_K_XL ##### 列出所有可用模型 lemonade list
相似文章
PSA: unsloth/GLM-5.2-GGUF 正在上传
unsloth 已将 GLM-5.2 的 GGUF 版本上传至 Hugging Face,为 llama.cpp、vLLM 和 SGLang 等多种推理引擎提供了可直接使用的模型文件。
@mr_r0b0t:官方 @NVIDIAAI GLM5.1-NVFP4 在 @huggingface 上被发现
NVIDIA 发布了 GLM-5.1-NVFP4,这是 ZAI 的 GLM-5.1 模型的量化版本,总参数 754B(激活参数 40B),在 Hugging Face 上以 MIT 许可证提供。
更多QAT内容以及毛茸茸的tick
作者发布了Gemma 4模型(12B和31B)改进后的GGUF量化版本,采用了更精确的量化感知训练过程,相比原版量化实现了更低的KLD和更高的同top百分比。
@AdinaYakup: GLM 5.2 来了 753B (比你想象的要小?) 1M上下文 MIT许可证 GLM IndexShare: 跨层复用索引器…
GLM 5.2 作为一款753B参数的开源模型发布,拥有1M上下文长度,MIT许可证,在AIME 2026上达到99.2分,超越了GPT-5.5、Gemini 3.1 Pro和Claude Opus 4.8。
KyleHessling1/Qwopus-GLM-18B-Merged-GGUF
实验性 18B 参数模型:将两个 Qwen-3.5-9B 微调模型堆叠后,用 1000 步 QLoRA“缝合”层边界;生成的 GGUF 在 44 项测试集上超越 Qwen 3.6-35B MoE,却只占 9.2 GB 显存。