unsloth/diffusiongemma-26B-A4B-it-GGUF

Hugging Face Models Trending 模型

摘要

Unsloth 发布了 Google DeepMind 的 DiffusionGemma (26B-A4B) 的 GGUF 量化版本,这是一种新的块扩散架构,可实现更快的文本生成,已准备好用于 llama.cpp。

任务:image-text-to-text 标签:gguf, gemma4, unsloth, gemma, google, diffusion_gemma, image-text-to-text, base_model:google/diffusiongemma-26B-A4B-it, base_model:quantized:google/diffusiongemma-26B-A4B-it, 许可证:apache-2.0, endpoints_compatible, 区域:us, 对话
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:33

unsloth/diffusiongemma-26B-A4B-it-GGUF · Hugging Face 源: https://huggingface.co/unsloth/diffusiongemma-26B-A4B-it-GGUF

请参阅 Unsloth Dynamic 2.0 GGUFs (https://unsloth.ai/docs/basics/unsloth-dynamic-v2.0-gguf) 了解我们的量化基准测试。


Hugging Face (https://huggingface.co/google/diffusiongemma-26B-A4B-it-GGUF) | GitHub (https://github.com/google-gemma) | 发布博客 (https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/) | 文档 (https://ai.google.dev/gemma/docs/diffusiongemma)

许可证: Apache 2.0 (https://ai.google.dev/gemma/docs/gemma_4_license) | 作者: Google DeepMind (https://deepmind.google/models/gemma/)

使用 llama.cpp (GGUF) 运行

这些 GGUF 文件需配合 llama.cpp 的 DiffusionGemma 构建版本运行(DiffusionGemma 拉取请求 ggml-org/llama.cpp#24423 (https://github.com/ggml-org/llama.cpp/pull/24423))。DiffusionGemma 是一种块扩散架构,因此需要该分支以及专用的 llama-diffusion-cli 运行程序 - 标准 llama-cli/llama-server 尚无法从中生成。

diffusiongem-ezgif.com-resize (https://cdn-uploads.huggingface.co/production/uploads/62ecdc18b72a69615d6bd857/2LZaCFfmQVzpse8PWd0Oh.gif)

1. 构建分支

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
# 检出 DiffusionGemma 拉取请求 (#24423)
gh pr checkout 24423
# 或者,不使用 gh CLI:
# git fetch origin pull/24423/head:diffusiongemma && git checkout diffusiongemma
# 使用 CUDA 构建(去掉 -DGGML_CUDA=ON 可进行仅 CPU 构建)
cmake -B build -DGGML_CUDA=ON
cmake --build build -j --config Release --target llama-diffusion-cli

2. 下载 GGUF

pip install -U "huggingface_hub[cli]"
hf download unsloth/diffusiongemma-26B-A4B-it-GGUF \
    --local-dir unsloth/diffusiongemma-26B-A4B-it-GGUF \
    --include "*Q8_0*"    # 使用 "*Q4_K_M*" 可获得更小的 16 GB 下载
量化大小说明
BF1647 GB全精度参考
Q8_025 GB接近无损,推荐
Q6_K21 GB
Q5_K_M18 GB
Q4_K_M16 GB最小,适合单张 24 GB GPU

3. 运行(聊天)

-n/--n-predict 是唯一需要的长度参数:它会自动推导扩散块数并调整批处理/上下文大小。在单 GPU 上,提示前缀 KV 缓存会自动开启。

./build/bin/llama-diffusion-cli \
    -m unsloth/diffusiongemma-26B-A4B-it-GGUF/diffusiongemma-26B-A4B-it-Q8_0.gguf \
    -ngl 99 -cnv -n 2048

4. 实时观看画布去噪(--diffusion-visual

添加 --diffusion-visual 可以实时看到每个 256 token 画布的现场去噪过程(无闪烁,保留滚动历史):

./build/bin/llama-diffusion-cli \
    -m unsloth/diffusiongemma-26B-A4B-it-GGUF/diffusiongemma-26B-A4B-it-Q8_0.gguf \
    -ngl 99 -cnv -n 2048 --diffusion-visual

标志

  • -n, --n-predict N - 目标 token 数;自动推导 --diffusion-blocks 并调整 -ub/-b/-c
  • -ngl 99 - 将所有层卸载到 GPU(-ngl 0 为仅 CPU)。
  • -cnv - 多轮对话模式。
  • --diffusion-visual - 实时画布去噪视图。
  • Entropy-Bound 采样器默认开启(--diffusion-eb auto)。可通过 --diffusion-eb-max-steps(默认 48)、--diffusion-eb-t-max/--diffusion-eb-t-min(0.8 → 0.4)、--diffusion-eb-entropy-bound(0.1)和 --diffusion-eb-confidence(0.005)进行调整。
  • --diffusion-kv-cache {auto,on,off} - 提示前缀 KV 缓存(auto = 单 GPU 时开启)。

DiffusionGemma 是 Google DeepMind 构建的生成式模型。基于 26B A4B 混合专家模型(MoE)Gemma 4 架构,DiffusionGemma 使用离散扩散生成 token。这一开放权重模型支持多模态,可处理文本、图像和视频输入以生成文本输出。基于 MoE 基础,DiffusionGemma 旨在提升生成速度(每秒 token 数),同时可在多种硬件环境部署。

DiffusionGemma 在 Gemma 4 的架构和能力基础上进一步改进,引入了以下核心特性:

  • 离散文本扩散 – 从逐 token 自回归转变为块自回归多画布采样。通过并行地对 token 块(“画布”)进行迭代去噪生成文本,显著提升解码速度。
  • 多模态输入处理 – 处理交错排列的文本、图像(支持可变宽高比和分辨率)以及视频输入,生成文本输出。
  • 编码器-解码器架构 – 使用自回归编码器处理并缓存提示上下文,配合解码器对生成画布应用双向注意力机制。
  • 混合专家模型(MoE)效率 – 利用稀疏 MoE 设计(128 个专家中激活 8 个),在提供强大推理能力的同时保持低内存占用,适合本地运行。
  • 思考模式(推理) – 设计为高能力推理器,支持可配置的思考模式。
  • 针对小批量推理优化 – 专为在单个高性能加速器上实现低延迟、高速度生成而设计。
  • 原生系统提示支持 – 与 Gemma 4 一样,支持更新 system 角色,实现更结构化、更可控的对话。

模型概述

模型概述 DiffusionGemma 旨在减少标准因果语言模型的顺序瓶颈。它采用针对推理速度优化的编码器-解码器架构。编码器以预填充方式运行,处理初始提示并生成 KV 缓存。解码器随后利用双向注意力处理一个输入 token 块(“画布”),并通过交叉注意力访问缓存的上下文。推理过程中,DiffusionGemma 采用多画布采样。模型并非逐 token 生成,而是使用扩散采样器对整个 token 块进行迭代去噪。一旦画布完全去噪,便由编码器处理并追加到 KV 缓存中,随后模型生成下一个画布。这种块自回归方式实现了更快的文本生成速度。

DiffusionGemma

参数
总参数量25.2B
激活参数量3.8B
层数30
滑动窗口1024 tokens
上下文长度最高 256K tokens
画布长度256
词汇表大小262K
专家数量8 激活 / 128 总计 + 1 共享
支持模态文本、图像
视觉编码器参数~550M

基准测试结果

基准测试结果 这些模型针对大量不同数据集和指标进行了评估,以覆盖文本生成的不同方面。表格中的评估结果针对指令微调模型,使用推荐的 Entropy Bound(EB)采样器(参见下方最佳实践)。

基准测试DiffusionGemma 26B A4BGemma 4 26B A4B
MMLU Pro77.6%82.6%
AIME 2026 无工具69.1%88.3%
LiveCodeBench v669.1%77.1%
Codeforces ELO14291718
GPQA Diamond73.2%82.3%
Tau2(3 次平均)56.2%68.2%
HLE 无工具11.0%8.7%
HLE 带搜索11.9%17.2%
BigBench Extra Hard47.6%64.8%
MMMLU81.5%86.3%
视觉
MMMU Pro54.3%73.8%
OmniDocBench 1.5(平均编辑距离,越低越好)0.3190.149
MATH-Vision70.5%82.4%
MedXPertQA MM49.0%58.1%
长上下文
MRCR v2 8 针 128k(平均)32.0%44.1%

核心能力

核心能力 DiffusionGemma 可处理文本和视觉领域的广泛任务。关键能力包括:

  • 高速生成 – 通过扩散采样并行去噪 256 tokens,实现低延迟:每次前向传播生成 15-20 个 token,在小批量设置下(H100,FP8)获得每用户超过 1100 tokens/s 的生成速度。
  • 自适应的推理时计算 – 简单提示和结构化任务(如代码)需要较少的去噪步骤,从而实现基于任务复杂度的动态 tokens/s 速度。
  • 思考 – 内置推理模式,让模型在回答之前逐步思考。
  • 长上下文 – 上下文窗口最高可达 256K tokens。
  • 图像理解 – 目标检测、文档/PDF 解析、屏幕和 UI 理解、图表理解、OCR(包括多语言)、手写识别和指代。图像支持可变宽高比和分辨率。
  • 视频理解 – 通过处理连续帧序列来分析并描述视频内容。
  • 交错多模态输入 – 在同一提示中混合图像、视频和文本,实现上下文密集的推理。
  • 函数调用 – 原生支持结构化工具使用,实现智能体工作流。
  • 编程与推理 – 具备代码生成、补全以及逐步逻辑推理能力。
  • 多语言 – 开箱支持 35 种以上语言,预训练数据涵盖 140 种以上语言。

入门指南

你可以使用最新版本的 Transformers 运行所有 Gemma 4 模型。开始前,在环境中安装必要的依赖:

pip install -U transformers torch accelerate

安装完成后,可使用以下代码加载模型:

from transformers import DiffusionGemmaForBlockDiffusion, AutoProcessor

MODEL_ID = "google/diffusiongemma-26B-A4B-it"

# 加载模型
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = DiffusionGemmaForBlockDiffusion.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto",
)

模型加载完成后,即可开始生成输出:

# 提示
message = [
    {"role": "user", "content": "Why is the sky blue?"}
]

# 处理输入
input_ids = processor.apply_chat_template(
    message,
    tokenize=True,
    add_generation_prompt=True,
    return_dict=True,
    return_tensors="pt"
).to(model.device)

output = model.generate(**input_ids, max_new_tokens=512)

# 解析输出
text = processor.decode(output[0], skip_special_tokens=False)

最佳实践

为获得最佳性能,请使用以下配置和最佳实践:

1. 扩散采样设置

在所有使用场景中采用以下标准化采样配置:

  • 方法:使用熵界去噪和自适应停止的扩散采样。
  • 采样配置
    • 最大去噪步数 = 48
    • 温度策略(用于 logit 整形):从 0.8 线性衰减至 0.4
    • Token 选择:每一步中,采样器选择最低熵的 token,使得其互信息界保持在 entropy bound = 0.1 以下
    • Token 重新加噪:采样器对未选择的 token 进行完全重新加噪
  • 自适应停止:当且仅当同时满足以下两个条件时,采样提前终止:
    • 置信预测:画布上的平均模型熵低于 entropy threshold = 0.005
    • 稳定预测:连续两个去噪步中最高概率 token 预测保持不变

2. 思考模式配置

与 Gemma 4 模型类似,我们使用标准的 system、assistant 和 user 角色。要正确管理思考过程,请使用以下控制 token:

  • 触发思考:通过在系统提示开头包含 <|think|> token 来启用思考。要禁用思考,请移除该 token(注意:仍可能输出空思考通道)。
  • 标准生成:启用思考后,模型将输出内部推理,然后按照以下结构输出最终答案:<|channel>thought\n[内部推理]``。
  • 禁用思考行为:如果思考被禁用,模型仍会生成标签,但思想块为空:<|channel>thought\n[最终答案]

注意:许多库(如 transformers)会为你处理聊天模板的复杂性。

3. 多轮对话

  • 历史中无思考内容:在多轮对话中,历史模型输出应仅包含最终响应。前一轮模型的思想不得在下一轮用户输入前添加。

4. 模态顺序

  • 对于多模态输入的最佳效果,请将图像内容放在提示中的文本之前

5. 可变图像分辨率

除了可变宽高比,DiffusionGemma 还通过可配置的视觉 token 预算支持可变图像分辨率,该预算控制用于表示图像的 token 数量。较高的 token 预算保留更多视觉细节,但计算量更大;较低的预算适用于不需要细粒度理解的任务,可实现更快的推理。

  • 支持的 token 预算为:701402805601120
  • 对于分类、字幕或视频理解等任务,使用较低预算,因为这些任务更看重快速推理和处理大量帧。
  • 对于 OCR、文档解析或阅读小字等任务,使用较高预算

6. 视频长度

所有模型都支持图像输入,并可将视频作为帧序列处理。视频最大支持 60 秒,假设图像以每秒一帧进行处理。

模型数据

训练数据与数据处理方式

训练数据集 我们的预训练数据集是一个大规模、多样化的数据集合,涵盖广泛的领域和模态,包括网页文档、代码、图像、音频,数据截止日期为 2025 年 1 月。关键组成部分如下:

  • 网页文档:多样化的网页文本集合确保模型接触广泛的语言风格、主题和词汇。训练数据集包含 140 种以上语言的内容。
  • 代码:让模型接触代码有助于学习编程语言的语法和模式,提升其生成代码和理解代码相关问题的能力。
  • 数学:在数学文本上训练帮助模型学习逻辑推理、符号表示以及处理数学查询。
  • 图像:广泛的图像使模型能够执行图像分析和视觉数据提取任务。这些数据的组合

相似文章

unsloth/gemma-4-26B-A4B-it-GGUF

Hugging Face Models Trending

# unsloth/gemma-4-26B-A4B-it-GGUF · Hugging Face 来源:[https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF](https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF) ## [https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF#read-our-how-to-run-gemma-4-guide](https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF#read-our-how-to-run-gemma-4-guide)阅读我们的[如何运行 Gemma 4 指南](https://docs.unsloth.ai/models/gemma-4)! *请参阅[Unsloth Dynamic 2.0 GGUFs](https://unsloth.ai/docs/basics/unslot

unsloth/gemma-4-12B-it-qat-GGUF

Hugging Face Models Trending

Unsloth 发布了Google DeepMind的Gemma 4模型的GGUF量化版本,通过量化感知训练(QAT)优化,在保持质量的同时降低内存需求,支持多种格式和大小,适用于不同的部署场景。

google/diffusiongemma-26B-A4B-it

Hugging Face Models Trending

Google DeepMind 发布了 DiffusionGemma,这是一个 26B 参数的 Mixture-of-Experts 模型,使用离散扩散实现更快的文本生成,支持多模态输入和 256K token 上下文。

DiffusionGemma

Simon Willison's Blog

Google 发布了 DiffusionGemma,这是一个采用 Apache 2 许可证的开源权重文本生成模型(总参数量 26B,活跃参数量 4B),通过 NVIDIA 的 NIM 云 API 展示了极高的推理速度。

DiffusionGemma:开发者指南 - Google Developers Blog

Reddit r/LocalLLaMA

DiffusionGemma 是 Google DeepMind 推出的全新实验模型,可在 256 令牌画布上实现并行生成,在 GPU 上令牌生成速度提升高达 4 倍。本开发者指南阐述了其架构、双向上下文,并提供了用于解决数独的微调配方。