quantized

#quantized

@outsource_: 全新 GLM+ Qwen 18B 可在消费级 GPU 上运行，仅用一半显存就打败 35B MoE

X AI KOLs Timeline ↗ · 2026-04-20 缓存

全新的 18B 融合量化模型 Qwopus-GLM-18B-GGUF，仅用一半显存即可在消费级 GPU 上运行，性能超越 35B MoE 模型。

0 人收藏 0 人点赞

#quantized

X AI KOLs Following ↗ · 2026-04-19 缓存

Google 的 Gemma 4 E2B/E4B 量化模型现已通过 Locally AI 等应用，在 iPhone 上实现完全离线运行，借助 Apple Neural Engine 进行本地推理。

0 人收藏 0 人点赞

#quantized

Hugging Face Models Trending ↗ · 2026-04-11 缓存

SuperGemma4-26B-Uncensored-Fast GGUF v2 是 Google Gemma-4-26B 模型的量化、本地可运行变体，针对 Apple Silicon 进行了优化，提供更快的推理速度和较少审查的聊天行为，同时在通用任务上保持实用性能。

0 人收藏 0 人点赞

#quantized

Hugging Face Models Trending ↗ · 2026-04-10 缓存

SuperGemma4-26B-Uncensored-MLX-4bit-v2 是 Google Gemma 4 26B 的微调量化版本，专为 Apple Silicon 优化，在代码、推理和工具使用任务上性能提升，同时保持比原版基线更快的推理速度。

0 人收藏 0 人点赞