@aisearchio: GLM 5.2 GGUF 已经来了！8位版本大小约为完整模型的一半。更小版本即将推出 https://huggingfa…

X AI KOLs Timeline 2026/06/17 21:07 模型

glm-5-2 gguf quantization open-source huggingface unsloth 8-bit

摘要

GLM 5.2 GGUF 量化模型已发布，8位版本大小约为完整模型的一半；更小版本即将推出。

GLM 5.2 GGUF 已经来了！ 8位版本大小约为完整模型的一半。更小版本即将推出 https://t.co/z2mPAFcB2f https://t.co/HEZFD20Lc1

查看原文

查看缓存全文

缓存时间: 2026/06/18 02:06

GLM 5.2 GGUF 现已上线！8-bit 版本大小约为完整模型的一半。更小版本即将推出 https://t.co/z2mPAFcB2f https://t.co/HEZFD20Lc1 — # unsloth/GLM-5.2-GGUF · Hugging Face 来源：https://huggingface.co/unsloth/GLM-5.2-GGUF 库Transformers (https://huggingface.co/unsloth/GLM-5.2-GGUF?library=transformers)如何将 unsloth/GLM-5.2-GGUF 与 Transformers 配合使用： # 使用 pipeline 作为高级辅助工具 from transformers import pipeline pipe = pipeline("text-generation", model="unsloth/GLM-5.2-GGUF") messages = [ {"role": "user", "content": "你是谁？"}, ] pipe(messages) # 直接加载模型 from transformers import AutoModel model = AutoModel.from_pretrained("unsloth/GLM-5.2-GGUF", dtype="auto") llama-cpp-python (https://huggingface.co/unsloth/GLM-5.2-GGUF?library=llama-cpp-python)如何将 unsloth/GLM-5.2-GGUF 与 llama-cpp-python 配合使用： # !pip install llama-cpp-python from llama_cpp import Llama llm = Llama.from_pretrained( repo_id="unsloth/GLM-5.2-GGUF", filename="BF16/GLM-5.2-BF16-00001-of-00033.gguf", ) llm.create_chat_completion( messages = [ { "role": "user", "content": "法国的首都是哪里？" } ] ) 笔记本Google Colab (https://huggingface.co/unsloth/GLM-5.2-GGUF/colab)Kaggle (https://huggingface.co/unsloth/GLM-5.2-GGUF/kaggle)本地应用设置 (https://huggingface.co/settings/local-apps)llama.cpp (https://huggingface.co/unsloth/GLM-5.2-GGUF?local-app=llama.cpp)如何将 unsloth/GLM-5.2-GGUF 与 llama.cpp 配合使用： ##### 通过 brew 安装 brew install llama.cpp # 启动本地兼容 OpenAI 的服务器（带 Web UI）： llama-server -hf unsloth/GLM-5.2-GGUF:UD-Q4_K_XL # 直接在终端中运行推理： llama-cli -hf unsloth/GLM-5.2-GGUF:UD-Q4_K_XL ##### 通过 WinGet（Windows）安装 winget install llama.cpp # 启动本地兼容 OpenAI 的服务器（带 Web UI）： llama-server -hf unsloth/GLM-5.2-GGUF:UD-Q4_K_XL # 直接在终端中运行推理： llama-cli -hf unsloth/GLM-5.2-GGUF:UD-Q4_K_XL ##### 使用预编译二进制文件 # 从以下地址下载预编译二进制文件： # https://github.com/ggerganov/llama.cpp/releases # 启动本地兼容 OpenAI 的服务器（带 Web UI）： ./llama-server -hf unsloth/GLM-5.2-GGUF:UD-Q4_K_XL # 直接在终端中运行推理： ./llama-cli -hf unsloth/GLM-5.2-GGUF:UD-Q4_K_XL ##### 从源代码编译 git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp cmake -B build cmake --build build -j --target llama-server llama-cli # 启动本地兼容 OpenAI 的服务器（带 Web UI）： ./build/bin/llama-server -hf unsloth/GLM-5.2-GGUF:UD-Q4_K_XL # 直接在终端中运行推理： ./build/bin/llama-cli -hf unsloth/GLM-5.2-GGUF:UD-Q4_K_XL ##### 使用 Docker docker model run hf.co/unsloth/GLM-5.2-GGUF:UD-Q4_K_XL LM Studio JanvLLM (https://huggingface.co/unsloth/GLM-5.2-GGUF?local-app=vllm)如何将 unsloth/GLM-5.2-GGUF 与 vLLM 配合使用： ##### 通过 pip 安装并提供模型服务 # 通过 pip 安装 vLLM： pip install vllm # 启动 vLLM 服务器： vllm serve "unsloth/GLM-5.2-GGUF" # 使用 curl 调用服务器（兼容 OpenAI 的 API）： curl -X POST "http://localhost:8000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "unsloth/GLM-5.2-GGUF", "messages": [ { "role": "user", "content": "法国的首都是哪里？" } ] }' ##### 使用 Docker docker model run hf.co/unsloth/GLM-5.2-GGUF:UD-Q4_K_XL SGLang (https://huggingface.co/unsloth/GLM-5.2-GGUF?local-app=sglang)如何将 unsloth/GLM-5.2-GGUF 与 SGLang 配合使用： ##### 通过 pip 安装并提供模型服务 # 通过 pip 安装 SGLang： pip install sglang # 启动 SGLang 服务器： python3 -m sglang.launch_server \ --model-path "unsloth/GLM-5.2-GGUF" \ --host 0.0.0.0 \ --port 30000 # 使用 curl 调用服务器（兼容 OpenAI 的 API）： curl -X POST "http://localhost:30000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "unsloth/GLM-5.2-GGUF", "messages": [ { "role": "user", "content": "法国的首都是哪里？" } ] }' ##### 使用 Docker 镜像 docker run --gpus all \ --shm-size 32g \ -p 30000:30000 \ -v ~/.cache/huggingface:/root/.cache/huggingface \ --env "HF_TOKEN=" \ --ipc=host \ lmsysorg/sglang:latest \ python3 -m sglang.launch_server \ --model-path "unsloth/GLM-5.2-GGUF" \ --host 0.0.0.0 \ --port 30000 # 使用 curl 调用服务器（兼容 OpenAI 的 API）： curl -X POST "http://localhost:30000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "unsloth/GLM-5.2-GGUF", "messages": [ { "role": "user", "content": "法国的首都是哪里？" } ] }' Ollama (https://huggingface.co/unsloth/GLM-5.2-GGUF?local-app=ollama)如何将 unsloth/GLM-5.2-GGUF 与 Ollama 配合使用： ollama run hf.co/unsloth/GLM-5.2-GGUF:UD-Q4_K_XL Unsloth Studio (https://huggingface.co/unsloth/GLM-5.2-GGUF?local-app=unsloth)如何将 unsloth/GLM-5.2-GGUF 与 Unsloth Studio 配合使用： ##### 安装 Unsloth Studio（macOS、Linux、WSL） curl -fsSL https://unsloth.ai/install.sh | sh # 运行 unsloth studio unsloth studio -H 0.0.0.0 -p 8888 # 然后在浏览器中打开 http://localhost:8888 # 搜索 unsloth/GLM-5.2-GGUF 开始聊天 ##### 安装 Unsloth Studio（Windows） irm https://unsloth.ai/install.ps1 | iex # 运行 unsloth studio unsloth studio -H 0.0.0.0 -p 8888 # 然后在浏览器中打开 http://localhost:8888 # 搜索 unsloth/GLM-5.2-GGUF 开始聊天 ##### 使用 HuggingFace Spaces 运行 Unsloth # 无需设置 # 在浏览器中打开 https://huggingface.co/spaces/unsloth/studio # 搜索 unsloth/GLM-5.2-GGUF 开始聊天 Pi (https://huggingface.co/unsloth/GLM-5.2-GGUF?local-app=pi)如何将 unsloth/GLM-5.2-GGUF 与 Pi 配合使用： ##### 启动 llama.cpp 服务器 # 安装 llama.cbrew install llama.cpp # 启动本地兼容 OpenAI 的服务器： llama-server -hf unsloth/GLM-5.2-GGUF:UD-Q4_K_XL ##### 在 Pi 中配置模型 # 安装 Pi： npm install -g @mariozechner/pi-coding-agent # 添加到 ~/.pi/agent/models.json： { "providers": { "llama-cpp": { "baseUrl": "http://localhost:8080/v1", "api": "openai-completions", "apiKey": "none", "models": [ { "id": "unsloth/GLM-5.2-GGUF:UD-Q4_K_XL" } ] } } } ##### 运行 Pi # 在项目目录中启动 Pi： pi Hermes Agent新增 (https://huggingface.co/unsloth/GLM-5.2-GGUF?local-app=hermes-agent)如何将 unsloth/GLM-5.2-GGUF 与 Hermes Agent 配合使用： ##### 启动 llama.cpp 服务器 # 安装 llama.cbrew install llama.cpp # 启动本地兼容 OpenAI 的服务器： llama-server -hf unsloth/GLM-5.2-GGUF:UD-Q4_K_XL ##### 配置 Hermes # 安装 Hermes： curl -fsSL https://hermes-agent.nousresearch.com/install.sh | bash hermes setup # 将 Hermes 指向本地服务器： hermes config set model.provider custom hermes config set model.base_url http://127.0.0.1:8080/v1 hermes config set model.default unsloth/GLM-5.2-GGUF:UD-Q4_K_XL ##### 运行 Hermes hermes Atomic Chat新增Docker Model Runner (https://huggingface.co/unsloth/GLM-5.2-GGUF?local-app=docker-model-runner)如何将 unsloth/GLM-5.2-GGUF 与 Docker Model Runner 配合使用： docker model run hf.co/unsloth/GLM-5.2-GGUF:UD-Q4_K_XL Lemonade (https://huggingface.co/unsloth/GLM-5.2-GGUF?local-app=lemonade)如何将 unsloth/GLM-5.2-GGUF 与 Lemonade 配合使用： ##### 拉取模型 # 从 https://lemonade-server.ai/ 下载 Lemonade lemonade pull unsloth/GLM-5.2-GGUF:UD-Q4_K_XL ##### 运行并与模型聊天 lemonade run user.GLM-5.2-GGUF-UD-Q4_K_XL ##### 列出所有可用模型 lemonade list

@aisearchio: GLM 5.2 GGUF 已经来了！8位版本大小约为完整模型的一半。更小版本即将推出 https://huggingfa…

相似文章

PSA: unsloth/GLM-5.2-GGUF 正在上传

@mr_r0b0t：官方 @NVIDIAAI GLM5.1-NVFP4 在 @huggingface 上被发现

更多QAT内容以及毛茸茸的tick

@AdinaYakup: GLM 5.2 来了 753B (比你想象的要小？) 1M上下文 MIT许可证 GLM IndexShare: 跨层复用索引器…

KyleHessling1/Qwopus-GLM-18B-Merged-GGUF

提交意见反馈