HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced

Hugging Face Models Trending 模型

摘要

HauhauCS 发布了 Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced,这是 Gemma4 的无损无审查变体,经过一个多月的开发,拒绝次数为 0/465,提供 GGUF 格式。

任务:image-text-to-text 标签:gguf, uncensored, gemma4, moe, vision, multimodal, agentic, coding, image-text-to-text, en, base_model:google/gemma-4-26B-A4B-it, base_model:quantized:google/gemma-4-26B-A4B-it, license:apache-2.0, endpoints_compatible, region:us, imatrix, conversational
查看原文
查看缓存全文

缓存时间: 2026/05/20 14:26

HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced · Hugging Face

来源:https://huggingface.co/HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced

https://huggingface.co/HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced#gemma4-26b-a4b-uncensored-hauhaucs-balanced Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced

加入 Discord(https://discord.gg/SZ5vacTXYf) 获取更新、路线图、项目,或纯粹聊天交流。

由 HauhauCS 无审查化的 Gemma4-26B-A4B。0/465 次拒绝经过一个多月不间断工作后发布的候选版本。

HuggingFace 的「硬件兼容性」组件无法识别 K_P 量化——可能显示的文件少于实际数量。请点击 「查看 +X 个变体」 或前往 「文件和版本」 页面查看所有可下载的版本。

https://huggingface.co/HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced#about 关于

GenRM 已被击败!

未对数据集或能力进行任何更改。功能完整,100% 达到原作者的设计意图——只是去除了拒绝机制。

这些模型旨在成为市面上最好的无损无审查模型。

https://huggingface.co/HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced#balanced–release-candidate Balanced —— 候选版本

这一版确实花了我一个多月时间不间断地工作。目标是标准使用中实现零拒绝,测试中(自动化与手动)也看到了这样的结果——少数边缘情况的提示词在首次尝试时会回避,但重新提问后便会遵从。如果你遇到 Balanced 版本无法突破的拒绝,Aggressive 变体正在开发中,我会设法保持其无损或近无损质量。

  • Balanced:会推理边缘性请求,有时会附带简短的安全框架说明,然后给出完整回答。输出完整无保留,但会先自我说服。推荐默认版本——99% 以上的用户会满意。 最适合创意写作、角色扮演、情感智能。通常我也会提到「智能体编码/工具使用」,但经过深入测试,在这些任务上 Qwen3.6 明显更优。请留意我已提到的少数拒绝类别。
  • Aggressive(单独发布,开发中):去除自我推理的前置说明,直接回答任何深度审查的主题。

Balanced 版本在多次重复运行时采样稳定性显著更高,这对长上下文会话很重要——深层次对话中不会出现偶尔的主题漂移。

https://huggingface.co/HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced#downloads 下载

文件量化类型BPW大小
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q8_K_P.ggufQ8_K_P8.6427 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q6_K_P.ggufQ6_K_P7.2123 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q5_K_P.ggufQ5_K_P6.1219 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q5_K_M.ggufQ5_K_M6.0619 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q4_K_P.ggufQ4_K_P5.3617 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q4_K_M.ggufQ4_K_M5.3217 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-IQ4_XS.ggufIQ4_XS4.4114 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q3_K_P.ggufQ3_K_P4.2513 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q3_K_M.ggufQ3_K_M4.2113 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-IQ3_M.ggufIQ3_M3.9312 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q2_K_P.ggufQ2_K_P3.3911 GB
Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-IQ2_M.ggufIQ2_M3.2910 GB
mmproj-Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-f16.ggufmmproj (f16)1.2 GB

BPW 整体略高于标称值,因为 Gemma4 有许多逐层的归一化/缩放张量保持为 F32(每层多个后 FFW 归一化)。所有量化均使用重要性矩阵(imatrix)生成,以在无审查权重上最佳保全质量。

https://huggingface.co/HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced#what-are-k_p-quants 什么是 K_P 量化?

K_P(「完美」)量化是 HauhauCS 自定义的量化方案,通过模型特定分析,在最关键的地方选择性保留质量。每个模型都有自己优化的量化配置——最重要的前 25% 张量(根据 imatrix 校准)会升级到更高的量化类型。

K_P 量化实际上可以将质量提升 1-2 个量化级别,而文件大小仅比基础量化大约 5–15%。完全兼容 llama.cpp、LM Studio 以及任何支持 GGUF 的运行环境——无需特殊构建。

注意: 在 LM Studio 的量化列中,K_P 量化可能显示为「?」。这只是显示问题——模型加载和运行均正常。

https://huggingface.co/HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced#why-this-model-for-agentic-work 为什么选择此模型用于智能体工作

总参数量 26B,每次前向传播仅约 4B 活跃参数(128 个专家中的 top-8)。你获得了 26B 的推理能力,推理成本却接近 ~4B 的吞吐量——这在每次任务需要链式调用 10 多个工具时至关重要。滑动窗口注意力(1024 个 token)加上周期性全注意力,使得长上下文保持低成本而不失全局连贯性。

Balanced 针对此场景进行了校准。它去除了在安全/运维/研究相关话题上的拒绝,这些话题会阻碍合法编码工作,同时不会改变采样几何结构,以保持长链的连贯性。

对于大多数编码工作,推荐量化版本:Q4_K_P(17 GB,适合 24 GB 显存,并留有上下文空间),或者如果显存更多且追求最高质量并最小化卸载,选择 Q8_K_P(27 GB)。

请注意,Gemma4 的主要用途是创意写作、角色扮演和情感智能。

https://huggingface.co/HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced#specs 技术规格

  • 总参数量 25.2B / 活跃参数量 3.8B(128 个路由专家,top-8 + 1 个共享专家)
  • 30 层,混合注意力:5× 滑动窗口(1024 token)→ 1× 全全局注意力,循环重复。使用比例 RoPE(p-RoPE)。
  • 隐藏维度 2816,FFN 维度 2112,MoE 专家 FFN 704,词表大小 262144
  • 头部维度 256(SWA)/ 512(全注意力),16 个注意力头,8 个 KV 头(全注意力层为 2 个)
  • 原生上下文 256K
  • 原生多模态(文本 + 视觉)——附送 mmproj。每张图像的视觉 token 预算可变:70 / 140 / 280 / 560 / 1120。
  • 基于 google/gemma-4-26B-A4B-it(https://huggingface.co/google/gemma-4-26B-A4B-it)

https://huggingface.co/HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced#recommended-settings 推荐设置

来自 Gemma 官方作者:

推理参数:

  • temperature=1.0, top_p=0.95, top_k=64

重要提示:

  • 使用 --jinja 配合 llama.cpp 以确保正确的对话模板处理
  • 视觉支持需要将 mmproj 文件与主 GGUF 放在一起。在提示词中将图像放在文本之前以获得最佳视觉效果。
  • 对于严肃的智能体工作,至少保留 32K 上下文;如果需要,模型可以支持更多(原生 256K)
  • 滑动窗口已融入架构中——无需特殊标志

https://huggingface.co/HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced#turning-thinking-onoff 开启/关闭思考模式

Gemma4 的思考模式通过对话模板中的 enable_thinking 控制。这与 Qwen3.6 的模式相同——设为 false 可获得更快、更短的回复,设为 true(默认)则使用链式思考。

https://huggingface.co/HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced#lm-studio LM Studio

  1. 加载模型
  2. 右侧设置面板 → 模型设置提示模板(或 对话模板选项
  3. 在模板 kwargs 中将 enable_thinking 设为 false(或 true

https://huggingface.co/HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced#llamacpp llama.cpp

llama-server —— 设为所有请求的默认值:

llama-server -m Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf \
  --mmproj mmproj-Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-f16.gguf \
  --jinja -c 32768 -ngl 99 \
  --chat-template-kwargs '{"enable_thinking": false}'

通过兼容 OpenAI 的 API 进行单次请求:

{
  "model": "gemma4-26b-a4b",
  "messages": [{"role": "user", "content": "..."}],
  "chat_template_kwargs": {"enable_thinking": false}
}

https://huggingface.co/HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced#usage 使用说明

适用于 llama.cpp、LM Studio、Jan、koboldcpp 以及其他支持 GGUF 的运行环境。

llama-server:

llama-server -m Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf \
  --mmproj mmproj-Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-f16.gguf \
  --jinja -c 32768 -ngl 99

llama-cli:

llama-cli -m Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf \
  --mmproj mmproj-Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-f16.gguf \
  --jinja -c 32768 -ngl 99

https://huggingface.co/HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced#other-models 其他模型

  • HauhauCS 在 HuggingFace 上的模型(https://huggingface.co/HauhauCS/models)

*经过自动化和手动拒绝基准测试——标准使用中未发现任何拒绝。少数边缘情况的提示词在首次提问时回避,但在重新提问或策略性引导后服从。如果你遇到确实妨碍你使用场景的拒绝,请加入 Discord(https://discord.gg/SZ5vacTXYf)并标记,以便我在后续版本中处理。*

相似文章

HauhauCS/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive

Hugging Face Models Trending

HauhauCS 发布了 Google Gemma-4-E4B 模型的无审查变体,采用激进的安全移除方案,并具有自定义 K_P 量化,经过优化以保留质量并增强硬件兼容性。

Jiunsong/supergemma4-26b-uncensored-gguf-v2

Hugging Face Models Trending

SuperGemma4-26B-Uncensored-Fast GGUF v2 是 Google Gemma-4-26B 模型的量化、本地可运行变体,针对 Apple Silicon 进行了优化,提供更快的推理速度和较少审查的聊天行为,同时在通用任务上保持实用性能。

Gemma 4 26B-A4B GGUF 基准测试

Reddit r/LocalLLaMA

嘿,r/LocalLLaMA 社区,我们为不同提供方的 Gemma 4 26B-A4B GGUF 进行了 KL 散度(KL Divergence)基准测试,以帮助大家挑选最佳的量化版本。* 平均 KL 散度结果使几乎所有 **Unsloth GGUF 都位于帕累托前沿** * KLD 用于衡量量化模型与原始 BF16 输出分布的匹配程度,从而反映模型保留的精度。* 这使得 Unsloth 在 21/22 种尺寸中**表现最佳。**99.9% KLD 及其他指标也呈现相似趋势。* 我们还更新了我们的 Q6_K 量化版本以提高动态性。此前,它们...