quantized

标签

Cards List
#quantized

@BrianRoemmele: 轰!看看这场开源领域对Anthropic的寒武纪大爆发式反击!来看看Qwythos 9B,一个基于Qwen3.5的GGUF,它…

X AI KOLs Timeline · 20小时前 缓存

Qwythos 9B 是一款新的开源、无审查推理模型,基于Qwen3.5,提供GGUF量化版本,拥有100万token上下文、视觉能力和函数调用功能,性能相比基础模型有显著提升。

0 人收藏 0 人点赞
#quantized

@support_huihui: 新增GGUF模型:huihui-ai/Huihui-Qwythos-9B-Claude-Mythos-5-1M-abliterated-GGUF 这是empero-ai/Qw…的未经审查版本

X AI KOLs Timeline · 3天前 缓存

一款新的未经审查的GGUF量化版Qwythos-9B-Claude-Mythos-5-1M模型,通过abliteration技术创建,现已发布在Hugging Face上。

0 人收藏 0 人点赞
#quantized

unsloth/Qwen-AgentWorld-35B-A3B-GGUF

Hugging Face Models Trending · 4天前 缓存

Unsloth 发布了 Qwen-AgentWorld-35B-A3B 的 GGUF 量化版本,这是一个原生语言世界模型,能够通过长链思维推理模拟七个领域(MCP、搜索、终端、SWE、Android、Web、操作系统)中的智能体环境,并通过 CPT、SFT 和 RL 进行训练。

0 人收藏 0 人点赞
#quantized

@antirez: 基于我在DwarfStar中实现GLM 5.2的说法,有90%的概率我会合并该分支…

X AI KOLs Following · 5天前

Antirez宣布合并实现GLM 5.2的分支可能性很高,这可能成为运行在512GB Mac Studio上的最佳模型,并可能通过2位量化在分布式128GB MacBook上运行。

0 人收藏 0 人点赞
#quantized

nvidia/GLM-5.2-NVFP4

Hugging Face Models Trending · 6天前 缓存

NVIDIA 发布了 GLM-5.2-NVFP4,这是 ZAI 的 GLM-5.2 MoE 语言模型的量化版本,使用 Model Optimizer 进行了优化,适用于 NVIDIA Blackwell GPU 上的推理。

0 人收藏 0 人点赞
#quantized

PSA: unsloth/GLM-5.2-GGUF 正在上传

Reddit r/LocalLLaMA · 2026-06-17 缓存

unsloth 已将 GLM-5.2 的 GGUF 版本上传至 Hugging Face,为 llama.cpp、vLLM 和 SGLang 等多种推理引擎提供了可直接使用的模型文件。

0 人收藏 0 人点赞
#quantized

@DJLougen:量化版本在此:https://huggingface.co/GestaltLabs/Ornstein-3.5-9B-V1.5-GGUF…

X AI KOLs Timeline · 2026-06-17 缓存

GestaltLabs 发布了 Ornstein-3.5-9B-V1.5 GGUF 量化版本,这是基于 Qwen 3.5 9B 的推理优化微调模型,配备了 MTP 头和视觉投影器,支持多模态应用。

0 人收藏 0 人点赞
#quantized

@WaleedAhmad1a10: 查看 Qwen 3.5 27B MoQ 的 GGUF 文件:

X AI KOLs Following · 2026-06-16 缓存

Hugging Face 仓库 (kaitchup/Qwen3.6-27B-GGUF-MoQ) 提供了 Qwen3.6-27B MoQ 模型的 GGUF 量化权重,支持使用 llama.cpp 和 Ollama 等工具进行本地推理。

0 人收藏 0 人点赞
#quantized

Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF

Hugging Face Models Trending · 2026-06-11 缓存

GGUF量化版本的Qwopus3.6-27B-Coder-MTP模型已发布在Hugging Face上,针对本地推理进行了优化,兼容Transformers、vLLM、SGLang和Unsloth Studio。

0 人收藏 0 人点赞
#quantized

Holo3.1:快速本地计算机使用智能体

Hugging Face Blog · 2026-06-02 缓存

Holo3.1 是一个更新的计算机使用模型系列,提升了在网页、桌面和移动环境中的鲁棒性,引入了用于本地执行的量化检查点,并增加了对函数调用协议的原生支持。

1 人收藏 1 人点赞
#quantized

nvidia/Qwen3.6-35B-A3B-NVFP4 · Hugging Face

Reddit r/LocalLLaMA · 2026-05-30 缓存

NVIDIA发布了Qwen3.6-35B-A3B-NVFP4,这是阿里巴巴混合专家多模态语言模型的量化版本,使用Model Optimizer优化以在NVIDIA GPU上部署。

0 人收藏 0 人点赞
#quantized

@dealignai: Qwen3.6-27b 和 35b 的 MXFP4 与 MXFP8 CRACK 版本现已推出,支持 MTP。尽享无审查的极速体验!35b mxfp4: https://huggingface…

X AI KOLs Timeline · 2026-05-24 缓存

DealignAI 发布了 Qwen3.6-27B 和 35B 模型的 CRACK-abliterated 以及 MXFP4/MXFP8 量化版本,保留了 MTP,可在 Apple Silicon 上实现更快的推测解码。

0 人收藏 0 人点赞
#quantized

@DeepTechTR: Qwen 3.6 27B 在16 GB VRAM下速度极快!Pure Quant技术带来的影响——27B模型流畅运行的时代已来临……

X AI KOLs Timeline · 2026-05-24 缓存

Qwen 3.6 27B 在16 GB VRAM上运行快速,得益于'Pure Quant'技术,通过MTP达到40 tokens/s,并支持64k上下文,使得本地AI能在RTX 4060 Ti等消费级GPU上运行。

0 人收藏 0 人点赞
#quantized

@coffeecup2020: TurboQuant - Qwopus3.6-27B-v2-TQ3_4S.gguf 通过gpqa测试确认,这非常棒。https://huggingface.co/YTan…

X AI KOLs Timeline · 2026-05-23 缓存

TurboQuant 是 Qwopus3.6-27B-v2 模型的 GGUF 量化版本,经 GPQA 测试结果确认,并在 Hugging Face 上分享,感谢 Jackrong 和 KyleHessling。

0 人收藏 0 人点赞
#quantized

@Ex0byt: 各位,这是 Qwen3.6-27B-PRISM-PRO-DQ - 敬请享用!

X AI KOLs Timeline · 2026-05-19 缓存

发布了 Qwen3.6-27B-PRISM-PRO-DQ,这是 Qwen3.6-27B 的动态量化 GGUF 版本,去除了偏见/宣传内容,保留了原生 MTP 草稿头和视觉塔,支持无损推测解码以实现更快的推理。

0 人收藏 0 人点赞
#quantized

CohereLabs/command-a-plus-05-2026-w4a4

Hugging Face Models Trending · 2026-05-18 缓存

CohereLabs 发布了 Command A+,一个开源的 25B 活跃参数模型,针对智能体、多语言和推理任务进行了优化,支持视觉功能,采用 Apache 2.0 许可证。

0 人收藏 0 人点赞
#quantized

DavidAU/Qwen3.6-40B-Claude-4.6-Opus-Deckard-Heretic-Uncensored-Thinking-NEO-CODE-Di-IMatrix-MAX-GGUF

Hugging Face Models Trending · 2026-05-01 缓存

DavidAU 发布了一款基于 Qwen 3.6 的自定义 40B 参数模型,该模型经过扩展并使用 Claude 4.6 Opus 蒸馏和 Deckard 数据集进行微调,具有优化的 GGUF 量化,以提升精度和无审查能力。

0 人收藏 0 人点赞
#quantized

@outsource_: 全新 GLM+ Qwen 18B 可在消费级 GPU 上运行,仅用一半显存就打败 35B MoE

X AI KOLs Timeline · 2026-04-20 缓存

全新的 18B 融合量化模型 Qwopus-GLM-18B-GGUF,仅用一半显存即可在消费级 GPU 上运行,性能超越 35B MoE 模型。

0 人收藏 0 人点赞
#quantized

@rohanpaul_ai:Gemma 4(特别是其面向边缘优化的 E2B 与 E4B 量化版)通过 Locally 等应用,在 iPhone 上实现完全离线运行……

X AI KOLs Following · 2026-04-19 缓存

Google 的 Gemma 4 E2B/E4B 量化模型现已通过 Locally AI 等应用,在 iPhone 上实现完全离线运行,借助 Apple Neural Engine 进行本地推理。

0 人收藏 0 人点赞
#quantized

Jiunsong/supergemma4-26b-uncensored-gguf-v2

Hugging Face Models Trending · 2026-04-11 缓存

SuperGemma4-26B-Uncensored-Fast GGUF v2 是 Google Gemma-4-26B 模型的量化、本地可运行变体,针对 Apple Silicon 进行了优化,提供更快的推理速度和较少审查的聊天行为,同时在通用任务上保持实用性能。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈