HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced
摘要
HauhauCS 发布了 Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced,这是 Gemma4 的无损无审查变体,经过一个多月的开发,拒绝次数为 0/465,提供 GGUF 格式。
查看缓存全文
缓存时间: 2026/05/20 14:26
HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced · Hugging Face
来源:https://huggingface.co/HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced
https://huggingface.co/HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced#gemma4-26b-a4b-uncensored-hauhaucs-balanced Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced
加入 Discord(https://discord.gg/SZ5vacTXYf) 获取更新、路线图、项目,或纯粹聊天交流。
由 HauhauCS 无审查化的 Gemma4-26B-A4B。0/465 次拒绝经过一个多月不间断工作后发布的候选版本。
HuggingFace 的「硬件兼容性」组件无法识别 K_P 量化——可能显示的文件少于实际数量。请点击 「查看 +X 个变体」 或前往 「文件和版本」 页面查看所有可下载的版本。
https://huggingface.co/HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced#about 关于
GenRM 已被击败!
未对数据集或能力进行任何更改。功能完整,100% 达到原作者的设计意图——只是去除了拒绝机制。
这些模型旨在成为市面上最好的无损无审查模型。
https://huggingface.co/HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced#balanced–release-candidate Balanced —— 候选版本
这一版确实花了我一个多月时间不间断地工作。目标是标准使用中实现零拒绝,测试中(自动化与手动)也看到了这样的结果——少数边缘情况的提示词在首次尝试时会回避,但重新提问后便会遵从。如果你遇到 Balanced 版本无法突破的拒绝,Aggressive 变体正在开发中,我会设法保持其无损或近无损质量。
- Balanced:会推理边缘性请求,有时会附带简短的安全框架说明,然后给出完整回答。输出完整无保留,但会先自我说服。推荐默认版本——99% 以上的用户会满意。 最适合创意写作、角色扮演、情感智能。通常我也会提到「智能体编码/工具使用」,但经过深入测试,在这些任务上 Qwen3.6 明显更优。请留意我已提到的少数拒绝类别。
- Aggressive(单独发布,开发中):去除自我推理的前置说明,直接回答任何深度审查的主题。
Balanced 版本在多次重复运行时采样稳定性显著更高,这对长上下文会话很重要——深层次对话中不会出现偶尔的主题漂移。
https://huggingface.co/HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced#downloads 下载
| 文件 | 量化类型 | BPW | 大小 |
|---|---|---|---|
| Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q8_K_P.gguf | Q8_K_P | 8.64 | 27 GB |
| Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q6_K_P.gguf | Q6_K_P | 7.21 | 23 GB |
| Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q5_K_P.gguf | Q5_K_P | 6.12 | 19 GB |
| Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q5_K_M.gguf | Q5_K_M | 6.06 | 19 GB |
| Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf | Q4_K_P | 5.36 | 17 GB |
| Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q4_K_M.gguf | Q4_K_M | 5.32 | 17 GB |
| Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-IQ4_XS.gguf | IQ4_XS | 4.41 | 14 GB |
| Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q3_K_P.gguf | Q3_K_P | 4.25 | 13 GB |
| Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q3_K_M.gguf | Q3_K_M | 4.21 | 13 GB |
| Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-IQ3_M.gguf | IQ3_M | 3.93 | 12 GB |
| Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q2_K_P.gguf | Q2_K_P | 3.39 | 11 GB |
| Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-IQ2_M.gguf | IQ2_M | 3.29 | 10 GB |
| mmproj-Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-f16.gguf | mmproj (f16) | — | 1.2 GB |
BPW 整体略高于标称值,因为 Gemma4 有许多逐层的归一化/缩放张量保持为 F32(每层多个后 FFW 归一化)。所有量化均使用重要性矩阵(imatrix)生成,以在无审查权重上最佳保全质量。
https://huggingface.co/HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced#what-are-k_p-quants 什么是 K_P 量化?
K_P(「完美」)量化是 HauhauCS 自定义的量化方案,通过模型特定分析,在最关键的地方选择性保留质量。每个模型都有自己优化的量化配置——最重要的前 25% 张量(根据 imatrix 校准)会升级到更高的量化类型。
K_P 量化实际上可以将质量提升 1-2 个量化级别,而文件大小仅比基础量化大约 5–15%。完全兼容 llama.cpp、LM Studio 以及任何支持 GGUF 的运行环境——无需特殊构建。
注意: 在 LM Studio 的量化列中,K_P 量化可能显示为「?」。这只是显示问题——模型加载和运行均正常。
https://huggingface.co/HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced#why-this-model-for-agentic-work 为什么选择此模型用于智能体工作
总参数量 26B,每次前向传播仅约 4B 活跃参数(128 个专家中的 top-8)。你获得了 26B 的推理能力,推理成本却接近 ~4B 的吞吐量——这在每次任务需要链式调用 10 多个工具时至关重要。滑动窗口注意力(1024 个 token)加上周期性全注意力,使得长上下文保持低成本而不失全局连贯性。
Balanced 针对此场景进行了校准。它去除了在安全/运维/研究相关话题上的拒绝,这些话题会阻碍合法编码工作,同时不会改变采样几何结构,以保持长链的连贯性。
对于大多数编码工作,推荐量化版本:Q4_K_P(17 GB,适合 24 GB 显存,并留有上下文空间),或者如果显存更多且追求最高质量并最小化卸载,选择 Q8_K_P(27 GB)。
请注意,Gemma4 的主要用途是创意写作、角色扮演和情感智能。
https://huggingface.co/HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced#specs 技术规格
- 总参数量 25.2B / 活跃参数量 3.8B(128 个路由专家,top-8 + 1 个共享专家)
- 30 层,混合注意力:5× 滑动窗口(1024 token)→ 1× 全全局注意力,循环重复。使用比例 RoPE(p-RoPE)。
- 隐藏维度 2816,FFN 维度 2112,MoE 专家 FFN 704,词表大小 262144
- 头部维度 256(SWA)/ 512(全注意力),16 个注意力头,8 个 KV 头(全注意力层为 2 个)
- 原生上下文 256K
- 原生多模态(文本 + 视觉)——附送 mmproj。每张图像的视觉 token 预算可变:70 / 140 / 280 / 560 / 1120。
- 基于 google/gemma-4-26B-A4B-it(https://huggingface.co/google/gemma-4-26B-A4B-it)
https://huggingface.co/HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced#recommended-settings 推荐设置
来自 Gemma 官方作者:
推理参数:
temperature=1.0, top_p=0.95, top_k=64
重要提示:
- 使用
--jinja配合 llama.cpp 以确保正确的对话模板处理 - 视觉支持需要将
mmproj文件与主 GGUF 放在一起。在提示词中将图像放在文本之前以获得最佳视觉效果。 - 对于严肃的智能体工作,至少保留 32K 上下文;如果需要,模型可以支持更多(原生 256K)
- 滑动窗口已融入架构中——无需特殊标志
https://huggingface.co/HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced#turning-thinking-onoff 开启/关闭思考模式
Gemma4 的思考模式通过对话模板中的 enable_thinking 控制。这与 Qwen3.6 的模式相同——设为 false 可获得更快、更短的回复,设为 true(默认)则使用链式思考。
https://huggingface.co/HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced#lm-studio LM Studio
- 加载模型
- 右侧设置面板 → 模型设置 → 提示模板(或 对话模板选项)
- 在模板 kwargs 中将
enable_thinking设为false(或true)
https://huggingface.co/HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced#llamacpp llama.cpp
llama-server —— 设为所有请求的默认值:
llama-server -m Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf \
--mmproj mmproj-Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-f16.gguf \
--jinja -c 32768 -ngl 99 \
--chat-template-kwargs '{"enable_thinking": false}'
通过兼容 OpenAI 的 API 进行单次请求:
{
"model": "gemma4-26b-a4b",
"messages": [{"role": "user", "content": "..."}],
"chat_template_kwargs": {"enable_thinking": false}
}
https://huggingface.co/HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced#usage 使用说明
适用于 llama.cpp、LM Studio、Jan、koboldcpp 以及其他支持 GGUF 的运行环境。
llama-server:
llama-server -m Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf \
--mmproj mmproj-Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-f16.gguf \
--jinja -c 32768 -ngl 99
llama-cli:
llama-cli -m Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf \
--mmproj mmproj-Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced-f16.gguf \
--jinja -c 32768 -ngl 99
https://huggingface.co/HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced#other-models 其他模型
- HauhauCS 在 HuggingFace 上的模型(https://huggingface.co/HauhauCS/models)
*经过自动化和手动拒绝基准测试——标准使用中未发现任何拒绝。少数边缘情况的提示词在首次提问时回避,但在重新提问或策略性引导后服从。如果你遇到确实妨碍你使用场景的拒绝,请加入 Discord(https://discord.gg/SZ5vacTXYf)并标记,以便我在后续版本中处理。*
相似文章
HauhauCS/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive
HauhauCS 发布了 Google Gemma-4-E4B 模型的无审查变体,采用激进的安全移除方案,并具有自定义 K_P 量化,经过优化以保留质量并增强硬件兼容性。
HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive
在 Hugging Face 上发布 Qwen3.6-35B-A3B 模型的无审查激进变体,采用自定义 K_P 量化并完全移除了安全拒绝机制。
G4-Meromero-31B-Uncensored-Heretic 现已发布,它是 Gemma 4 31B 的微调版本,专为创意任务设计,KLD为0.0100,拒绝率为15/100!
G4-Meromero-31B-Uncensored-Heretic 是 Gemma 4 31B 的微调版本,将拒绝率降低至15/100,同时保持KL散度为0.01,保留了模型质量。它专为创意任务设计,可在Hugging Face上以GGUF量化格式获取。
Jiunsong/supergemma4-26b-uncensored-gguf-v2
SuperGemma4-26B-Uncensored-Fast GGUF v2 是 Google Gemma-4-26B 模型的量化、本地可运行变体,针对 Apple Silicon 进行了优化,提供更快的推理速度和较少审查的聊天行为,同时在通用任务上保持实用性能。
Gemma 4 26B-A4B GGUF 基准测试
嘿,r/LocalLLaMA 社区,我们为不同提供方的 Gemma 4 26B-A4B GGUF 进行了 KL 散度(KL Divergence)基准测试,以帮助大家挑选最佳的量化版本。* 平均 KL 散度结果使几乎所有 **Unsloth GGUF 都位于帕累托前沿** * KLD 用于衡量量化模型与原始 BF16 输出分布的匹配程度,从而反映模型保留的精度。* 这使得 Unsloth 在 21/22 种尺寸中**表现最佳。**99.9% KLD 及其他指标也呈现相似趋势。* 我们还更新了我们的 Q6_K 量化版本以提高动态性。此前,它们...