quantized

#quantized

@BrianRoemmele: 轰！看看这场开源领域对Anthropic的寒武纪大爆发式反击！来看看Qwythos 9B，一个基于Qwen3.5的GGUF，它…

X AI KOLs Timeline ↗ · 20小时前缓存

Qwythos 9B 是一款新的开源、无审查推理模型，基于Qwen3.5，提供GGUF量化版本，拥有100万token上下文、视觉能力和函数调用功能，性能相比基础模型有显著提升。

0 人收藏 0 人点赞

#quantized

@support_huihui: 新增GGUF模型：huihui-ai/Huihui-Qwythos-9B-Claude-Mythos-5-1M-abliterated-GGUF 这是empero-ai/Qw…的未经审查版本

X AI KOLs Timeline ↗ · 3天前缓存

一款新的未经审查的GGUF量化版Qwythos-9B-Claude-Mythos-5-1M模型，通过abliteration技术创建，现已发布在Hugging Face上。

0 人收藏 0 人点赞

#quantized

unsloth/Qwen-AgentWorld-35B-A3B-GGUF

Hugging Face Models Trending ↗ · 4天前缓存

Unsloth 发布了 Qwen-AgentWorld-35B-A3B 的 GGUF 量化版本，这是一个原生语言世界模型，能够通过长链思维推理模拟七个领域（MCP、搜索、终端、SWE、Android、Web、操作系统）中的智能体环境，并通过 CPT、SFT 和 RL 进行训练。

0 人收藏 0 人点赞

#quantized

@antirez: 基于我在DwarfStar中实现GLM 5.2的说法，有90%的概率我会合并该分支…

X AI KOLs Following ↗ · 5天前

Antirez宣布合并实现GLM 5.2的分支可能性很高，这可能成为运行在512GB Mac Studio上的最佳模型，并可能通过2位量化在分布式128GB MacBook上运行。

0 人收藏 0 人点赞

#quantized

nvidia/GLM-5.2-NVFP4

Hugging Face Models Trending ↗ · 6天前缓存

NVIDIA 发布了 GLM-5.2-NVFP4，这是 ZAI 的 GLM-5.2 MoE 语言模型的量化版本，使用 Model Optimizer 进行了优化，适用于 NVIDIA Blackwell GPU 上的推理。

0 人收藏 0 人点赞

#quantized

PSA: unsloth/GLM-5.2-GGUF 正在上传

Reddit r/LocalLLaMA ↗ · 2026-06-17 缓存

unsloth 已将 GLM-5.2 的 GGUF 版本上传至 Hugging Face，为 llama.cpp、vLLM 和 SGLang 等多种推理引擎提供了可直接使用的模型文件。

0 人收藏 0 人点赞

#quantized

@DJLougen：量化版本在此：https://huggingface.co/GestaltLabs/Ornstein-3.5-9B-V1.5-GGUF…

X AI KOLs Timeline ↗ · 2026-06-17 缓存

GestaltLabs 发布了 Ornstein-3.5-9B-V1.5 GGUF 量化版本，这是基于 Qwen 3.5 9B 的推理优化微调模型，配备了 MTP 头和视觉投影器，支持多模态应用。

0 人收藏 0 人点赞

#quantized

@WaleedAhmad1a10: 查看 Qwen 3.5 27B MoQ 的 GGUF 文件：

X AI KOLs Following ↗ · 2026-06-16 缓存

Hugging Face 仓库 (kaitchup/Qwen3.6-27B-GGUF-MoQ) 提供了 Qwen3.6-27B MoQ 模型的 GGUF 量化权重，支持使用 llama.cpp 和 Ollama 等工具进行本地推理。

0 人收藏 0 人点赞

#quantized

Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF

Hugging Face Models Trending ↗ · 2026-06-11 缓存

GGUF量化版本的Qwopus3.6-27B-Coder-MTP模型已发布在Hugging Face上，针对本地推理进行了优化，兼容Transformers、vLLM、SGLang和Unsloth Studio。

0 人收藏 0 人点赞

#quantized

Holo3.1：快速本地计算机使用智能体

Hugging Face Blog ↗ · 2026-06-02 缓存

Holo3.1 是一个更新的计算机使用模型系列，提升了在网页、桌面和移动环境中的鲁棒性，引入了用于本地执行的量化检查点，并增加了对函数调用协议的原生支持。

1 人收藏 1 人点赞

#quantized

nvidia/Qwen3.6-35B-A3B-NVFP4 · Hugging Face

Reddit r/LocalLLaMA ↗ · 2026-05-30 缓存

NVIDIA发布了Qwen3.6-35B-A3B-NVFP4，这是阿里巴巴混合专家多模态语言模型的量化版本，使用Model Optimizer优化以在NVIDIA GPU上部署。

0 人收藏 0 人点赞

#quantized

@dealignai: Qwen3.6-27b 和 35b 的 MXFP4 与 MXFP8 CRACK 版本现已推出，支持 MTP。尽享无审查的极速体验！35b mxfp4: https://huggingface…

X AI KOLs Timeline ↗ · 2026-05-24 缓存

DealignAI 发布了 Qwen3.6-27B 和 35B 模型的 CRACK-abliterated 以及 MXFP4/MXFP8 量化版本，保留了 MTP，可在 Apple Silicon 上实现更快的推测解码。

0 人收藏 0 人点赞

#quantized

@DeepTechTR: Qwen 3.6 27B 在16 GB VRAM下速度极快！Pure Quant技术带来的影响——27B模型流畅运行的时代已来临……

X AI KOLs Timeline ↗ · 2026-05-24 缓存

Qwen 3.6 27B 在16 GB VRAM上运行快速，得益于'Pure Quant'技术，通过MTP达到40 tokens/s，并支持64k上下文，使得本地AI能在RTX 4060 Ti等消费级GPU上运行。

0 人收藏 0 人点赞

#quantized

@coffeecup2020: TurboQuant - Qwopus3.6-27B-v2-TQ3_4S.gguf 通过gpqa测试确认，这非常棒。https://huggingface.co/YTan…

X AI KOLs Timeline ↗ · 2026-05-23 缓存

TurboQuant 是 Qwopus3.6-27B-v2 模型的 GGUF 量化版本，经 GPQA 测试结果确认，并在 Hugging Face 上分享，感谢 Jackrong 和 KyleHessling。

0 人收藏 0 人点赞

#quantized

@Ex0byt: 各位，这是 Qwen3.6-27B-PRISM-PRO-DQ - 敬请享用！

X AI KOLs Timeline ↗ · 2026-05-19 缓存

发布了 Qwen3.6-27B-PRISM-PRO-DQ，这是 Qwen3.6-27B 的动态量化 GGUF 版本，去除了偏见/宣传内容，保留了原生 MTP 草稿头和视觉塔，支持无损推测解码以实现更快的推理。

0 人收藏 0 人点赞

#quantized

CohereLabs/command-a-plus-05-2026-w4a4

Hugging Face Models Trending ↗ · 2026-05-18 缓存

CohereLabs 发布了 Command A+，一个开源的 25B 活跃参数模型，针对智能体、多语言和推理任务进行了优化，支持视觉功能，采用 Apache 2.0 许可证。

0 人收藏 0 人点赞

#quantized

DavidAU/Qwen3.6-40B-Claude-4.6-Opus-Deckard-Heretic-Uncensored-Thinking-NEO-CODE-Di-IMatrix-MAX-GGUF

Hugging Face Models Trending ↗ · 2026-05-01 缓存

DavidAU 发布了一款基于 Qwen 3.6 的自定义 40B 参数模型，该模型经过扩展并使用 Claude 4.6 Opus 蒸馏和 Deckard 数据集进行微调，具有优化的 GGUF 量化，以提升精度和无审查能力。

0 人收藏 0 人点赞

#quantized

@outsource_: 全新 GLM+ Qwen 18B 可在消费级 GPU 上运行，仅用一半显存就打败 35B MoE

X AI KOLs Timeline ↗ · 2026-04-20 缓存

全新的 18B 融合量化模型 Qwopus-GLM-18B-GGUF，仅用一半显存即可在消费级 GPU 上运行，性能超越 35B MoE 模型。

0 人收藏 0 人点赞

#quantized

@rohanpaul_ai：Gemma 4（特别是其面向边缘优化的 E2B 与 E4B 量化版）通过 Locally 等应用，在 iPhone 上实现完全离线运行……

X AI KOLs Following ↗ · 2026-04-19 缓存

Google 的 Gemma 4 E2B/E4B 量化模型现已通过 Locally AI 等应用，在 iPhone 上实现完全离线运行，借助 Apple Neural Engine 进行本地推理。

0 人收藏 0 人点赞

#quantized

Jiunsong/supergemma4-26b-uncensored-gguf-v2

Hugging Face Models Trending ↗ · 2026-04-11 缓存

SuperGemma4-26B-Uncensored-Fast GGUF v2 是 Google Gemma-4-26B 模型的量化、本地可运行变体，针对 Apple Silicon 进行了优化，提供更快的推理速度和较少审查的聊天行为，同时在通用任务上保持实用性能。

0 人收藏 0 人点赞

quantized

提交意见反馈