gguf

标签

Cards List
#gguf

Tmax-27b —— 一款面向小显存GPU的Qwen3.6-27b终端Agent,采用DPPO(强化学习)训练

Reddit r/LocalLLaMA · 2小时前

Ai2发布了Tmax-27B,一个基于Qwen3.6-27B并使用DPPO(RL)训练的终端Agent大语言模型。作者提供了经重要性矩阵校准的GGUF量化版本,即使在极低的比特宽度下也能在Agent基准测试中取得有竞争力的性能,并且移植了MTP草案头用于推测解码。

0 人收藏 0 人点赞
#gguf

更新:适用于ik_llama.cpp的Qwen-27B-IQ4_KS和Qwen-27B-IQ_KS_KT量化版本,尤其针对16GB显存的NVIDIA显卡

Reddit r/LocalLLaMA · 3小时前

面向16GB显存NVIDIA GPU优化的新型Qwen3.6-27B GGUF量化版本,包含实验性Trellis变体,并附带了困惑度基准测试。

0 人收藏 0 人点赞
#gguf

MiniMax-M3-EAGLE3-GGUF - 兼容 Llama.cpp 的 MiniMax M3 EAGLE 草稿模型!

Reddit r/LocalLLaMA · 17小时前

现在有了适用于 llama.cpp 的 MiniMax M3 EAGLE 草稿模型的 GGUF 转换,可在兼容硬件上实现推测解码加速。

0 人收藏 0 人点赞
#gguf

Unsloth GLM-5.2 – 如何在本地运行

Hacker News Top · 23小时前 缓存

使用Unsloth Dynamic GGUFs在本地运行Z.ai的开放模型GLM-5.2的指南。该模型拥有744B总参数量(40B活跃),1M上下文窗口,量化版本可将内存降至2-bit的239GB,使得在256GB Mac上实现本地推理成为可能。

0 人收藏 0 人点赞
#gguf

@KyleHessling1: 大家早上好!我们发布了Qwopus 3.6 27B-Coder-Compat,为各种测试框架带来了兼容性修复!这个版本…

X AI KOLs Timeline · 昨天 缓存

Qwopus 3.6 27B-Coder-Compat 是新的GGUF版本,为各种测试框架带来了兼容性修复,减少了循环问题,提高了思考稳定性。它可以生成完整的HTML游戏,适合本地部署。

0 人收藏 0 人点赞
#gguf

Qwen 3.6 27b Abliterated (apostate)

Reddit r/LocalLLaMA · 2天前

用户发布了Apostate,这是Qwen 3.6 27B的去安全对齐版本,将安全对齐拒绝率从92%降低到7.6%,同时能力损失极小(KL 0.120)。

0 人收藏 0 人点赞
#gguf

@antirez:在 DwarfStar 中首次实现了 GLM 5.2 的基本工作版本。还需要一些时间才能变得足够好,但这只是一个有前景的开始……

X AI KOLs Following · 2天前 缓存

Antirez 报告了在 DwarfStar 中首次实现 GLM 5.2 的工作版本,使用了 433 GB 的 GGUF 文件,运行于配备 512GB 内存的 M3 Ultra 上,不过还需要进一步优化。

0 人收藏 0 人点赞
#gguf

为什么AutoRound被严重忽视?

Reddit r/LocalLLaMA · 2天前

一位用户质疑为什么AutoRound——这款在低位宽下精度保留出色且能直接导出GGUF的量化工具,尽管在复杂模型(如Qwen3.6 27B)上表现优于标准AWQ和RTN,却仍然被忽视。

0 人收藏 0 人点赞
#gguf

empero-ai/Qwythos-9B-Claude-Mythos-5-1M-GGUF

Hugging Face Models Trending · 4天前 缓存

Empero AI 发布了 Qwythos-9B-Claude-Mythos-5-1M-GGUF,这是一个基于 5 亿以上 tokens 的 Claude Mythos/Fable 轨迹(包含思维链)微调而成的 9B 参数推理模型,相比 Qwen3.5-9B 取得了显著提升,并通过 YaRN 旋度缩放支持 100 万 token 上下文。GGUF 量化版本支持在 llama.cpp 及兼容运行时上进行本地推理。

0 人收藏 0 人点赞
#gguf

yuxinlu1/gemma-4-12B-agentic-fable5-composer2.5-v2-3.5x-tau2-GGUF

Hugging Face Models Trending · 4天前 缓存

Gemma-4-12B 的微调版本,针对本地编码和智能体任务进行了优化,在 tau2-bench 电信基准测试上相较基础模型实现了约 3.5 倍的性能提升。

0 人收藏 0 人点赞
#gguf

校准用于智能体编码任务的2位GGUF量化(<10Gb)

Reddit r/LocalLLaMA · 5天前

本文介绍Qwopus3.6-27B-Coder模型的校准2位GGUF量化版本,用于智能体编码任务。实验表明,IQ2_M量化(9.74 GiB)在SWE-rebench基准测试中达到63%的通过率,与Q5_K_M量化相当,但模型大小仅为其一半。

0 人收藏 0 人点赞
#gguf

@MiaAI_lab:我使用Fable-5风格推理和助手轨迹对Gemma 4 12B进行了微调,并将其发布为Gemmable 4 12b。**可用…

X AI KOLs Timeline · 5天前 缓存

Mia-AiLab发布了Gemmable 4 12B,这是Google Gemma 4 12B模型的微调版本,使用了Fable-5风格推理和助手轨迹,提供GGUF和MLX格式用于本地推理。

0 人收藏 0 人点赞
#gguf

@UnslothAI: GLM-5.2 现在可以本地运行!2-bit 模型在从 1.51TB 缩小到 238GB(-84% 大小)后保留了约 82% 的准确率…

X AI KOLs Timeline · 5天前 缓存

UnslothAI 宣布 GLM-5.2,Z.ai 的最强开源模型,拥有 744B 参数,现在可以通过动态 GGUF 量化在本地运行,将大小减少约 84% 至 239GB,同时保留约 82% 的准确率。它适用于 256GB Mac 以及 RAM/VRAM 配置,并支持长上下文、推理和代理任务。

0 人收藏 0 人点赞
#gguf

@aisearchio: GLM 5.2 GGUF 已经来了!8位版本大小约为完整模型的一半。更小版本即将推出 https://huggingfa…

X AI KOLs Timeline · 6天前 缓存

GLM 5.2 GGUF 量化模型已发布,8位版本大小约为完整模型的一半;更小版本即将推出。

0 人收藏 0 人点赞
#gguf

PSA: unsloth/GLM-5.2-GGUF 正在上传

Reddit r/LocalLLaMA · 6天前 缓存

unsloth 已将 GLM-5.2 的 GGUF 版本上传至 Hugging Face,为 llama.cpp、vLLM 和 SGLang 等多种推理引擎提供了可直接使用的模型文件。

0 人收藏 0 人点赞
#gguf

@DJLougen:量化版本在此:https://huggingface.co/GestaltLabs/Ornstein-3.5-9B-V1.5-GGUF…

X AI KOLs Timeline · 6天前 缓存

GestaltLabs 发布了 Ornstein-3.5-9B-V1.5 GGUF 量化版本,这是基于 Qwen 3.5 9B 的推理优化微调模型,配备了 MTP 头和视觉投影器,支持多模态应用。

0 人收藏 0 人点赞
#gguf

@Ali_TongyiLab: 我们很高兴重点介绍来自开发者的一款优秀社区模型:Qwen3.6-27B-MTP-pi-reasoning-GGUF。基于…

X AI KOLs Timeline · 6天前 缓存

阿里巴巴通义实验室重点介绍了一款社区模型Qwen3.6-27B-MTP-pi-reasoning-GGUF,该模型基于Qwen3.6-27B,针对本地编码代理的自动编程和调试工作流进行了优化。

0 人收藏 0 人点赞
#gguf

bartowski/command-a-plus-05-2026-GGUF · Hugging Face

Reddit r/LocalLLaMA · 2026-06-16 缓存

Cohere 的 command-a-plus-05-2026 模型的 GGUF 量化版本,针对 llama.cpp 进行了优化,并提供了多种量化级别,适用于本地推理。

0 人收藏 0 人点赞
#gguf

@WaleedAhmad1a10: 查看 Qwen 3.5 27B MoQ 的 GGUF 文件:

X AI KOLs Following · 2026-06-16 缓存

Hugging Face 仓库 (kaitchup/Qwen3.6-27B-GGUF-MoQ) 提供了 Qwen3.6-27B MoQ 模型的 GGUF 量化权重,支持使用 llama.cpp 和 Ollama 等工具进行本地推理。

0 人收藏 0 人点赞
#gguf

Nex-N2 Pro 名副其实

Reddit r/LocalLLaMA · 2026-06-16

作者分享了他们在Nex-N2 Pro上的体验,最初误以为是Rio-3.5,并发现它在编码基准测试中表现异常出色,无幻觉问题,在他们的Mac设备上可与GPT-5.x媲美。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈