unsloth/diffusiongemma-26B-A4B-it-GGUF

Hugging Face Models Trending 2026/06/10 14:19 模型

diffusiongemma gguf quantization unsloth google-deepmind llama-cpp open-source

摘要

Unsloth 发布了 Google DeepMind 的 DiffusionGemma (26B-A4B) 的 GGUF 量化版本，这是一种新的块扩散架构，可实现更快的文本生成，已准备好用于 llama.cpp。

任务：image-text-to-text 标签：gguf, gemma4, unsloth, gemma, google, diffusion_gemma, image-text-to-text, base_model:google/diffusiongemma-26B-A4B-it, base_model:quantized:google/diffusiongemma-26B-A4B-it, 许可证:apache-2.0, endpoints_compatible, 区域:us, 对话

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:33

unsloth/diffusiongemma-26B-A4B-it-GGUF · Hugging Face 源: https://huggingface.co/unsloth/diffusiongemma-26B-A4B-it-GGUF

请参阅 Unsloth Dynamic 2.0 GGUFs (https://unsloth.ai/docs/basics/unsloth-dynamic-v2.0-gguf) 了解我们的量化基准测试。

Hugging Face (https://huggingface.co/google/diffusiongemma-26B-A4B-it-GGUF) | GitHub (https://github.com/google-gemma) | 发布博客 (https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/) | 文档 (https://ai.google.dev/gemma/docs/diffusiongemma)

许可证: Apache 2.0 (https://ai.google.dev/gemma/docs/gemma_4_license) | 作者: Google DeepMind (https://deepmind.google/models/gemma/)

使用 llama.cpp (GGUF) 运行

这些 GGUF 文件需配合 llama.cpp 的 DiffusionGemma 构建版本运行（DiffusionGemma 拉取请求 ggml-org/llama.cpp#24423 (https://github.com/ggml-org/llama.cpp/pull/24423)）。DiffusionGemma 是一种块扩散架构，因此需要该分支以及专用的 llama-diffusion-cli 运行程序 - 标准 llama-cli/llama-server 尚无法从中生成。

diffusiongem-ezgif.com-resize (https://cdn-uploads.huggingface.co/production/uploads/62ecdc18b72a69615d6bd857/2LZaCFfmQVzpse8PWd0Oh.gif)

1. 构建分支

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
# 检出 DiffusionGemma 拉取请求 (#24423)
gh pr checkout 24423
# 或者，不使用 gh CLI：
# git fetch origin pull/24423/head:diffusiongemma && git checkout diffusiongemma
# 使用 CUDA 构建（去掉 -DGGML_CUDA=ON 可进行仅 CPU 构建）
cmake -B build -DGGML_CUDA=ON
cmake --build build -j --config Release --target llama-diffusion-cli

2. 下载 GGUF

pip install -U "huggingface_hub[cli]"
hf download unsloth/diffusiongemma-26B-A4B-it-GGUF \
    --local-dir unsloth/diffusiongemma-26B-A4B-it-GGUF \
    --include "*Q8_0*"    # 使用 "*Q4_K_M*" 可获得更小的 16 GB 下载

量化	大小	说明
BF16	47 GB	全精度参考
Q8_0	25 GB	接近无损，推荐
Q6_K	21 GB
Q5_K_M	18 GB
Q4_K_M	16 GB	最小，适合单张 24 GB GPU

3. 运行（聊天）

-n/--n-predict 是唯一需要的长度参数：它会自动推导扩散块数并调整批处理/上下文大小。在单 GPU 上，提示前缀 KV 缓存会自动开启。

./build/bin/llama-diffusion-cli \
    -m unsloth/diffusiongemma-26B-A4B-it-GGUF/diffusiongemma-26B-A4B-it-Q8_0.gguf \
    -ngl 99 -cnv -n 2048

4. 实时观看画布去噪（`--diffusion-visual`）

添加 --diffusion-visual 可以实时看到每个 256 token 画布的现场去噪过程（无闪烁，保留滚动历史）：

./build/bin/llama-diffusion-cli \
    -m unsloth/diffusiongemma-26B-A4B-it-GGUF/diffusiongemma-26B-A4B-it-Q8_0.gguf \
    -ngl 99 -cnv -n 2048 --diffusion-visual

标志

-n, --n-predict N - 目标 token 数；自动推导 --diffusion-blocks 并调整 -ub/-b/-c。
-ngl 99 - 将所有层卸载到 GPU（-ngl 0 为仅 CPU）。
-cnv - 多轮对话模式。
--diffusion-visual - 实时画布去噪视图。
Entropy-Bound 采样器默认开启（--diffusion-eb auto）。可通过 --diffusion-eb-max-steps（默认 48）、--diffusion-eb-t-max/--diffusion-eb-t-min（0.8 → 0.4）、--diffusion-eb-entropy-bound（0.1）和 --diffusion-eb-confidence（0.005）进行调整。
--diffusion-kv-cache {auto,on,off} - 提示前缀 KV 缓存（auto = 单 GPU 时开启）。

DiffusionGemma 是 Google DeepMind 构建的生成式模型。基于 26B A4B 混合专家模型（MoE）Gemma 4 架构，DiffusionGemma 使用离散扩散生成 token。这一开放权重模型支持多模态，可处理文本、图像和视频输入以生成文本输出。基于 MoE 基础，DiffusionGemma 旨在提升生成速度（每秒 token 数），同时可在多种硬件环境部署。

DiffusionGemma 在 Gemma 4 的架构和能力基础上进一步改进，引入了以下核心特性：

离散文本扩散 – 从逐 token 自回归转变为块自回归多画布采样。通过并行地对 token 块（“画布”）进行迭代去噪生成文本，显著提升解码速度。
多模态输入处理 – 处理交错排列的文本、图像（支持可变宽高比和分辨率）以及视频输入，生成文本输出。
编码器-解码器架构 – 使用自回归编码器处理并缓存提示上下文，配合解码器对生成画布应用双向注意力机制。
混合专家模型（MoE）效率 – 利用稀疏 MoE 设计（128 个专家中激活 8 个），在提供强大推理能力的同时保持低内存占用，适合本地运行。
思考模式（推理） – 设计为高能力推理器，支持可配置的思考模式。
针对小批量推理优化 – 专为在单个高性能加速器上实现低延迟、高速度生成而设计。
原生系统提示支持 – 与 Gemma 4 一样，支持更新 system 角色，实现更结构化、更可控的对话。

模型概述

模型概述 DiffusionGemma 旨在减少标准因果语言模型的顺序瓶颈。它采用针对推理速度优化的编码器-解码器架构。编码器以预填充方式运行，处理初始提示并生成 KV 缓存。解码器随后利用双向注意力处理一个输入 token 块（“画布”），并通过交叉注意力访问缓存的上下文。推理过程中，DiffusionGemma 采用多画布采样。模型并非逐 token 生成，而是使用扩散采样器对整个 token 块进行迭代去噪。一旦画布完全去噪，便由编码器处理并追加到 KV 缓存中，随后模型生成下一个画布。这种块自回归方式实现了更快的文本生成速度。

DiffusionGemma

参数	值
总参数量	25.2B
激活参数量	3.8B
层数	30
滑动窗口	1024 tokens
上下文长度	最高 256K tokens
画布长度	256
词汇表大小	262K
专家数量	8 激活 / 128 总计 + 1 共享
支持模态	文本、图像
视觉编码器参数	~550M

基准测试结果

基准测试结果 这些模型针对大量不同数据集和指标进行了评估，以覆盖文本生成的不同方面。表格中的评估结果针对指令微调模型，使用推荐的 Entropy Bound（EB）采样器（参见下方最佳实践）。

基准测试	DiffusionGemma 26B A4B	Gemma 4 26B A4B
MMLU Pro	77.6%	82.6%
AIME 2026 无工具	69.1%	88.3%
LiveCodeBench v6	69.1%	77.1%
Codeforces ELO	1429	1718
GPQA Diamond	73.2%	82.3%
Tau2（3 次平均）	56.2%	68.2%
HLE 无工具	11.0%	8.7%
HLE 带搜索	11.9%	17.2%
BigBench Extra Hard	47.6%	64.8%
MMMLU	81.5%	86.3%
视觉
MMMU Pro	54.3%	73.8%
OmniDocBench 1.5（平均编辑距离，越低越好）	0.319	0.149
MATH-Vision	70.5%	82.4%
MedXPertQA MM	49.0%	58.1%
长上下文
MRCR v2 8 针 128k（平均）	32.0%	44.1%

核心能力

核心能力 DiffusionGemma 可处理文本和视觉领域的广泛任务。关键能力包括：

高速生成 – 通过扩散采样并行去噪 256 tokens，实现低延迟：每次前向传播生成 15-20 个 token，在小批量设置下（H100，FP8）获得每用户超过 1100 tokens/s 的生成速度。
自适应的推理时计算 – 简单提示和结构化任务（如代码）需要较少的去噪步骤，从而实现基于任务复杂度的动态 tokens/s 速度。
思考 – 内置推理模式，让模型在回答之前逐步思考。
长上下文 – 上下文窗口最高可达 256K tokens。
图像理解 – 目标检测、文档/PDF 解析、屏幕和 UI 理解、图表理解、OCR（包括多语言）、手写识别和指代。图像支持可变宽高比和分辨率。
视频理解 – 通过处理连续帧序列来分析并描述视频内容。
交错多模态输入 – 在同一提示中混合图像、视频和文本，实现上下文密集的推理。
函数调用 – 原生支持结构化工具使用，实现智能体工作流。
编程与推理 – 具备代码生成、补全以及逐步逻辑推理能力。
多语言 – 开箱支持 35 种以上语言，预训练数据涵盖 140 种以上语言。

入门指南

你可以使用最新版本的 Transformers 运行所有 Gemma 4 模型。开始前，在环境中安装必要的依赖：

pip install -U transformers torch accelerate

安装完成后，可使用以下代码加载模型：

from transformers import DiffusionGemmaForBlockDiffusion, AutoProcessor

MODEL_ID = "google/diffusiongemma-26B-A4B-it"

# 加载模型
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = DiffusionGemmaForBlockDiffusion.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto",
)

模型加载完成后，即可开始生成输出：

# 提示
message = [
    {"role": "user", "content": "Why is the sky blue?"}
]

# 处理输入
input_ids = processor.apply_chat_template(
    message,
    tokenize=True,
    add_generation_prompt=True,
    return_dict=True,
    return_tensors="pt"
).to(model.device)

output = model.generate(**input_ids, max_new_tokens=512)

# 解析输出
text = processor.decode(output[0], skip_special_tokens=False)

最佳实践

为获得最佳性能，请使用以下配置和最佳实践：

1. 扩散采样设置

在所有使用场景中采用以下标准化采样配置：

方法：使用熵界去噪和自适应停止的扩散采样。
采样配置：
- 最大去噪步数 = 48
- 温度策略（用于 logit 整形）：从 0.8 线性衰减至 0.4
- Token 选择：每一步中，采样器选择最低熵的 token，使得其互信息界保持在 entropy bound = 0.1 以下
- Token 重新加噪：采样器对未选择的 token 进行完全重新加噪
自适应停止：当且仅当同时满足以下两个条件时，采样提前终止：
- 置信预测：画布上的平均模型熵低于 entropy threshold = 0.005
- 稳定预测：连续两个去噪步中最高概率 token 预测保持不变

2. 思考模式配置

与 Gemma 4 模型类似，我们使用标准的 system、assistant 和 user 角色。要正确管理思考过程，请使用以下控制 token：

触发思考：通过在系统提示开头包含 <|think|> token 来启用思考。要禁用思考，请移除该 token（注意：仍可能输出空思考通道）。
标准生成：启用思考后，模型将输出内部推理，然后按照以下结构输出最终答案：<|channel>thought\n[内部推理]``。
禁用思考行为：如果思考被禁用，模型仍会生成标签，但思想块为空：<|channel>thought\n[最终答案]。

注意：许多库（如 transformers）会为你处理聊天模板的复杂性。

3. 多轮对话

历史中无思考内容：在多轮对话中，历史模型输出应仅包含最终响应。前一轮模型的思想不得在下一轮用户输入前添加。

4. 模态顺序

对于多模态输入的最佳效果，请将图像内容放在提示中的文本之前。

5. 可变图像分辨率

除了可变宽高比，DiffusionGemma 还通过可配置的视觉 token 预算支持可变图像分辨率，该预算控制用于表示图像的 token 数量。较高的 token 预算保留更多视觉细节，但计算量更大；较低的预算适用于不需要细粒度理解的任务，可实现更快的推理。

支持的 token 预算为：70、140、280、560、1120。
对于分类、字幕或视频理解等任务，使用较低预算，因为这些任务更看重快速推理和处理大量帧。
对于 OCR、文档解析或阅读小字等任务，使用较高预算。

6. 视频长度

所有模型都支持图像输入，并可将视频作为帧序列处理。视频最大支持 60 秒，假设图像以每秒一帧进行处理。

模型数据

训练数据与数据处理方式

训练数据集 我们的预训练数据集是一个大规模、多样化的数据集合，涵盖广泛的领域和模态，包括网页文档、代码、图像、音频，数据截止日期为 2025 年 1 月。关键组成部分如下：

网页文档：多样化的网页文本集合确保模型接触广泛的语言风格、主题和词汇。训练数据集包含 140 种以上语言的内容。
代码：让模型接触代码有助于学习编程语言的语法和模式，提升其生成代码和理解代码相关问题的能力。
数学：在数学文本上训练帮助模型学习逻辑推理、符号表示以及处理数学查询。
图像：广泛的图像使模型能够执行图像分析和视觉数据提取任务。这些数据的组合

相似文章

unsloth/gemma-4-26B-A4B-it-GGUF

Hugging Face Models Trending

# unsloth/gemma-4-26B-A4B-it-GGUF · Hugging Face 来源：[https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF](https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF) ## [https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF#read-our-how-to-run-gemma-4-guide](https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF#read-our-how-to-run-gemma-4-guide)阅读我们的[如何运行 Gemma 4 指南](https://docs.unsloth.ai/models/gemma-4)！ *请参阅[Unsloth Dynamic 2.0 GGUFs](https://unsloth.ai/docs/basics/unslot

unsloth/diffusiongemma-26B-A4B-it-GGUF

unsloth/diffusiongemma-26B-A4B-it-GGUF · Hugging Face 源: https://huggingface.co/unsloth/diffusiongemma-26B-A4B-it-GGUF

使用 llama.cpp (GGUF) 运行

1. 构建分支

2. 下载 GGUF

3. 运行（聊天）

4. 实时观看画布去噪（`--diffusion-visual`）

标志

模型概述

DiffusionGemma

基准测试结果

核心能力

入门指南

最佳实践

1. 扩散采样设置

2. 思考模式配置

3. 多轮对话

4. 模态顺序

5. 可变图像分辨率

6. 视频长度

模型数据

训练数据与数据处理方式

相似文章

unsloth/gemma-4-26B-A4B-it-GGUF

unsloth/gemma-4-12B-it-qat-GGUF

google/diffusiongemma-26B-A4B-it

DiffusionGemma

DiffusionGemma：开发者指南 - Google Developers Blog

提交意见反馈

unsloth/diffusiongemma-26B-A4B-it-GGUF · Hugging Face 源: https://huggingface.co/unsloth/diffusiongemma-26B-A4B-it-GGUF

使用 llama.cpp (GGUF) 运行

1. 构建分支

2. 下载 GGUF

3. 运行（聊天）

4. 实时观看画布去噪（--diffusion-visual）

标志

模型概述

DiffusionGemma

基准测试结果

核心能力

入门指南

最佳实践

1. 扩散采样设置

2. 思考模式配置

3. 多轮对话

4. 模态顺序

5. 可变图像分辨率

6. 视频长度

模型数据

训练数据与数据处理方式

相似文章

unsloth/gemma-4-26B-A4B-it-GGUF

unsloth/gemma-4-12B-it-qat-GGUF

google/diffusiongemma-26B-A4B-it

DiffusionGemma

DiffusionGemma：开发者指南 - Google Developers Blog

提交意见反馈

4. 实时观看画布去噪（`--diffusion-visual`）