unsloth/diffusiongemma-26B-A4B-it-GGUF
摘要
Unsloth 发布了 Google DeepMind 的 DiffusionGemma (26B-A4B) 的 GGUF 量化版本,这是一种新的块扩散架构,可实现更快的文本生成,已准备好用于 llama.cpp。
查看缓存全文
缓存时间: 2026/06/11 13:33
unsloth/diffusiongemma-26B-A4B-it-GGUF · Hugging Face 源: https://huggingface.co/unsloth/diffusiongemma-26B-A4B-it-GGUF
请参阅 Unsloth Dynamic 2.0 GGUFs (https://unsloth.ai/docs/basics/unsloth-dynamic-v2.0-gguf) 了解我们的量化基准测试。
Hugging Face (https://huggingface.co/google/diffusiongemma-26B-A4B-it-GGUF) | GitHub (https://github.com/google-gemma) | 发布博客 (https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/) | 文档 (https://ai.google.dev/gemma/docs/diffusiongemma)
许可证: Apache 2.0 (https://ai.google.dev/gemma/docs/gemma_4_license) | 作者: Google DeepMind (https://deepmind.google/models/gemma/)
使用 llama.cpp (GGUF) 运行
这些 GGUF 文件需配合 llama.cpp 的 DiffusionGemma 构建版本运行(DiffusionGemma 拉取请求 ggml-org/llama.cpp#24423 (https://github.com/ggml-org/llama.cpp/pull/24423))。DiffusionGemma 是一种块扩散架构,因此需要该分支以及专用的 llama-diffusion-cli 运行程序 - 标准 llama-cli/llama-server 尚无法从中生成。
diffusiongem-ezgif.com-resize (https://cdn-uploads.huggingface.co/production/uploads/62ecdc18b72a69615d6bd857/2LZaCFfmQVzpse8PWd0Oh.gif)
1. 构建分支
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
# 检出 DiffusionGemma 拉取请求 (#24423)
gh pr checkout 24423
# 或者,不使用 gh CLI:
# git fetch origin pull/24423/head:diffusiongemma && git checkout diffusiongemma
# 使用 CUDA 构建(去掉 -DGGML_CUDA=ON 可进行仅 CPU 构建)
cmake -B build -DGGML_CUDA=ON
cmake --build build -j --config Release --target llama-diffusion-cli
2. 下载 GGUF
pip install -U "huggingface_hub[cli]"
hf download unsloth/diffusiongemma-26B-A4B-it-GGUF \
--local-dir unsloth/diffusiongemma-26B-A4B-it-GGUF \
--include "*Q8_0*" # 使用 "*Q4_K_M*" 可获得更小的 16 GB 下载
| 量化 | 大小 | 说明 |
|---|---|---|
| BF16 | 47 GB | 全精度参考 |
| Q8_0 | 25 GB | 接近无损,推荐 |
| Q6_K | 21 GB | |
| Q5_K_M | 18 GB | |
| Q4_K_M | 16 GB | 最小,适合单张 24 GB GPU |
3. 运行(聊天)
-n/--n-predict 是唯一需要的长度参数:它会自动推导扩散块数并调整批处理/上下文大小。在单 GPU 上,提示前缀 KV 缓存会自动开启。
./build/bin/llama-diffusion-cli \
-m unsloth/diffusiongemma-26B-A4B-it-GGUF/diffusiongemma-26B-A4B-it-Q8_0.gguf \
-ngl 99 -cnv -n 2048
4. 实时观看画布去噪(--diffusion-visual)
添加 --diffusion-visual 可以实时看到每个 256 token 画布的现场去噪过程(无闪烁,保留滚动历史):
./build/bin/llama-diffusion-cli \
-m unsloth/diffusiongemma-26B-A4B-it-GGUF/diffusiongemma-26B-A4B-it-Q8_0.gguf \
-ngl 99 -cnv -n 2048 --diffusion-visual
标志
-n, --n-predict N- 目标 token 数;自动推导--diffusion-blocks并调整-ub/-b/-c。-ngl 99- 将所有层卸载到 GPU(-ngl 0为仅 CPU)。-cnv- 多轮对话模式。--diffusion-visual- 实时画布去噪视图。- Entropy-Bound 采样器默认开启(
--diffusion-eb auto)。可通过--diffusion-eb-max-steps(默认 48)、--diffusion-eb-t-max/--diffusion-eb-t-min(0.8 → 0.4)、--diffusion-eb-entropy-bound(0.1)和--diffusion-eb-confidence(0.005)进行调整。 --diffusion-kv-cache {auto,on,off}- 提示前缀 KV 缓存(auto = 单 GPU 时开启)。
DiffusionGemma 是 Google DeepMind 构建的生成式模型。基于 26B A4B 混合专家模型(MoE)Gemma 4 架构,DiffusionGemma 使用离散扩散生成 token。这一开放权重模型支持多模态,可处理文本、图像和视频输入以生成文本输出。基于 MoE 基础,DiffusionGemma 旨在提升生成速度(每秒 token 数),同时可在多种硬件环境部署。
DiffusionGemma 在 Gemma 4 的架构和能力基础上进一步改进,引入了以下核心特性:
- 离散文本扩散 – 从逐 token 自回归转变为块自回归多画布采样。通过并行地对 token 块(“画布”)进行迭代去噪生成文本,显著提升解码速度。
- 多模态输入处理 – 处理交错排列的文本、图像(支持可变宽高比和分辨率)以及视频输入,生成文本输出。
- 编码器-解码器架构 – 使用自回归编码器处理并缓存提示上下文,配合解码器对生成画布应用双向注意力机制。
- 混合专家模型(MoE)效率 – 利用稀疏 MoE 设计(128 个专家中激活 8 个),在提供强大推理能力的同时保持低内存占用,适合本地运行。
- 思考模式(推理) – 设计为高能力推理器,支持可配置的思考模式。
- 针对小批量推理优化 – 专为在单个高性能加速器上实现低延迟、高速度生成而设计。
- 原生系统提示支持 – 与 Gemma 4 一样,支持更新
system角色,实现更结构化、更可控的对话。
模型概述
模型概述 DiffusionGemma 旨在减少标准因果语言模型的顺序瓶颈。它采用针对推理速度优化的编码器-解码器架构。编码器以预填充方式运行,处理初始提示并生成 KV 缓存。解码器随后利用双向注意力处理一个输入 token 块(“画布”),并通过交叉注意力访问缓存的上下文。推理过程中,DiffusionGemma 采用多画布采样。模型并非逐 token 生成,而是使用扩散采样器对整个 token 块进行迭代去噪。一旦画布完全去噪,便由编码器处理并追加到 KV 缓存中,随后模型生成下一个画布。这种块自回归方式实现了更快的文本生成速度。
DiffusionGemma
| 参数 | 值 |
|---|---|
| 总参数量 | 25.2B |
| 激活参数量 | 3.8B |
| 层数 | 30 |
| 滑动窗口 | 1024 tokens |
| 上下文长度 | 最高 256K tokens |
| 画布长度 | 256 |
| 词汇表大小 | 262K |
| 专家数量 | 8 激活 / 128 总计 + 1 共享 |
| 支持模态 | 文本、图像 |
| 视觉编码器参数 | ~550M |
基准测试结果
基准测试结果 这些模型针对大量不同数据集和指标进行了评估,以覆盖文本生成的不同方面。表格中的评估结果针对指令微调模型,使用推荐的 Entropy Bound(EB)采样器(参见下方最佳实践)。
| 基准测试 | DiffusionGemma 26B A4B | Gemma 4 26B A4B |
|---|---|---|
| MMLU Pro | 77.6% | 82.6% |
| AIME 2026 无工具 | 69.1% | 88.3% |
| LiveCodeBench v6 | 69.1% | 77.1% |
| Codeforces ELO | 1429 | 1718 |
| GPQA Diamond | 73.2% | 82.3% |
| Tau2(3 次平均) | 56.2% | 68.2% |
| HLE 无工具 | 11.0% | 8.7% |
| HLE 带搜索 | 11.9% | 17.2% |
| BigBench Extra Hard | 47.6% | 64.8% |
| MMMLU | 81.5% | 86.3% |
| 视觉 | ||
| MMMU Pro | 54.3% | 73.8% |
| OmniDocBench 1.5(平均编辑距离,越低越好) | 0.319 | 0.149 |
| MATH-Vision | 70.5% | 82.4% |
| MedXPertQA MM | 49.0% | 58.1% |
| 长上下文 | ||
| MRCR v2 8 针 128k(平均) | 32.0% | 44.1% |
核心能力
核心能力 DiffusionGemma 可处理文本和视觉领域的广泛任务。关键能力包括:
- 高速生成 – 通过扩散采样并行去噪 256 tokens,实现低延迟:每次前向传播生成 15-20 个 token,在小批量设置下(H100,FP8)获得每用户超过 1100 tokens/s 的生成速度。
- 自适应的推理时计算 – 简单提示和结构化任务(如代码)需要较少的去噪步骤,从而实现基于任务复杂度的动态 tokens/s 速度。
- 思考 – 内置推理模式,让模型在回答之前逐步思考。
- 长上下文 – 上下文窗口最高可达 256K tokens。
- 图像理解 – 目标检测、文档/PDF 解析、屏幕和 UI 理解、图表理解、OCR(包括多语言)、手写识别和指代。图像支持可变宽高比和分辨率。
- 视频理解 – 通过处理连续帧序列来分析并描述视频内容。
- 交错多模态输入 – 在同一提示中混合图像、视频和文本,实现上下文密集的推理。
- 函数调用 – 原生支持结构化工具使用,实现智能体工作流。
- 编程与推理 – 具备代码生成、补全以及逐步逻辑推理能力。
- 多语言 – 开箱支持 35 种以上语言,预训练数据涵盖 140 种以上语言。
入门指南
你可以使用最新版本的 Transformers 运行所有 Gemma 4 模型。开始前,在环境中安装必要的依赖:
pip install -U transformers torch accelerate
安装完成后,可使用以下代码加载模型:
from transformers import DiffusionGemmaForBlockDiffusion, AutoProcessor
MODEL_ID = "google/diffusiongemma-26B-A4B-it"
# 加载模型
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = DiffusionGemmaForBlockDiffusion.from_pretrained(
MODEL_ID,
dtype="auto",
device_map="auto",
)
模型加载完成后,即可开始生成输出:
# 提示
message = [
{"role": "user", "content": "Why is the sky blue?"}
]
# 处理输入
input_ids = processor.apply_chat_template(
message,
tokenize=True,
add_generation_prompt=True,
return_dict=True,
return_tensors="pt"
).to(model.device)
output = model.generate(**input_ids, max_new_tokens=512)
# 解析输出
text = processor.decode(output[0], skip_special_tokens=False)
最佳实践
为获得最佳性能,请使用以下配置和最佳实践:
1. 扩散采样设置
在所有使用场景中采用以下标准化采样配置:
- 方法:使用熵界去噪和自适应停止的扩散采样。
- 采样配置:
- 最大去噪步数 = 48
- 温度策略(用于 logit 整形):从 0.8 线性衰减至 0.4
- Token 选择:每一步中,采样器选择最低熵的 token,使得其互信息界保持在 entropy bound = 0.1 以下
- Token 重新加噪:采样器对未选择的 token 进行完全重新加噪
- 自适应停止:当且仅当同时满足以下两个条件时,采样提前终止:
- 置信预测:画布上的平均模型熵低于 entropy threshold = 0.005
- 稳定预测:连续两个去噪步中最高概率 token 预测保持不变
2. 思考模式配置
与 Gemma 4 模型类似,我们使用标准的 system、assistant 和 user 角色。要正确管理思考过程,请使用以下控制 token:
- 触发思考:通过在系统提示开头包含
<|think|>token 来启用思考。要禁用思考,请移除该 token(注意:仍可能输出空思考通道)。 - 标准生成:启用思考后,模型将输出内部推理,然后按照以下结构输出最终答案:
<|channel>thought\n[内部推理]``。 - 禁用思考行为:如果思考被禁用,模型仍会生成标签,但思想块为空:
<|channel>thought\n[最终答案]。
注意:许多库(如 transformers)会为你处理聊天模板的复杂性。
3. 多轮对话
- 历史中无思考内容:在多轮对话中,历史模型输出应仅包含最终响应。前一轮模型的思想不得在下一轮用户输入前添加。
4. 模态顺序
- 对于多模态输入的最佳效果,请将图像内容放在提示中的文本之前。
5. 可变图像分辨率
除了可变宽高比,DiffusionGemma 还通过可配置的视觉 token 预算支持可变图像分辨率,该预算控制用于表示图像的 token 数量。较高的 token 预算保留更多视觉细节,但计算量更大;较低的预算适用于不需要细粒度理解的任务,可实现更快的推理。
- 支持的 token 预算为:70、140、280、560、1120。
- 对于分类、字幕或视频理解等任务,使用较低预算,因为这些任务更看重快速推理和处理大量帧。
- 对于 OCR、文档解析或阅读小字等任务,使用较高预算。
6. 视频长度
所有模型都支持图像输入,并可将视频作为帧序列处理。视频最大支持 60 秒,假设图像以每秒一帧进行处理。
模型数据
训练数据与数据处理方式
训练数据集 我们的预训练数据集是一个大规模、多样化的数据集合,涵盖广泛的领域和模态,包括网页文档、代码、图像、音频,数据截止日期为 2025 年 1 月。关键组成部分如下:
- 网页文档:多样化的网页文本集合确保模型接触广泛的语言风格、主题和词汇。训练数据集包含 140 种以上语言的内容。
- 代码:让模型接触代码有助于学习编程语言的语法和模式,提升其生成代码和理解代码相关问题的能力。
- 数学:在数学文本上训练帮助模型学习逻辑推理、符号表示以及处理数学查询。
- 图像:广泛的图像使模型能够执行图像分析和视觉数据提取任务。这些数据的组合
相似文章
unsloth/gemma-4-26B-A4B-it-GGUF
# unsloth/gemma-4-26B-A4B-it-GGUF · Hugging Face 来源:[https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF](https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF) ## [https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF#read-our-how-to-run-gemma-4-guide](https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF#read-our-how-to-run-gemma-4-guide)阅读我们的[如何运行 Gemma 4 指南](https://docs.unsloth.ai/models/gemma-4)! *请参阅[Unsloth Dynamic 2.0 GGUFs](https://unsloth.ai/docs/basics/unslot
unsloth/gemma-4-12B-it-qat-GGUF
Unsloth 发布了Google DeepMind的Gemma 4模型的GGUF量化版本,通过量化感知训练(QAT)优化,在保持质量的同时降低内存需求,支持多种格式和大小,适用于不同的部署场景。
google/diffusiongemma-26B-A4B-it
Google DeepMind 发布了 DiffusionGemma,这是一个 26B 参数的 Mixture-of-Experts 模型,使用离散扩散实现更快的文本生成,支持多模态输入和 256K token 上下文。
DiffusionGemma
Google 发布了 DiffusionGemma,这是一个采用 Apache 2 许可证的开源权重文本生成模型(总参数量 26B,活跃参数量 4B),通过 NVIDIA 的 NIM 云 API 展示了极高的推理速度。
DiffusionGemma:开发者指南 - Google Developers Blog
DiffusionGemma 是 Google DeepMind 推出的全新实验模型,可在 256 令牌画布上实现并行生成,在 GPU 上令牌生成速度提升高达 4 倍。本开发者指南阐述了其架构、双向上下文,并提供了用于解决数独的微调配方。