gguf

#gguf

Tmax-27b —— 一款面向小显存GPU的Qwen3.6-27b终端Agent，采用DPPO（强化学习）训练

Reddit r/LocalLLaMA ↗ · 2小时前

Ai2发布了Tmax-27B，一个基于Qwen3.6-27B并使用DPPO（RL）训练的终端Agent大语言模型。作者提供了经重要性矩阵校准的GGUF量化版本，即使在极低的比特宽度下也能在Agent基准测试中取得有竞争力的性能，并且移植了MTP草案头用于推测解码。

0 人收藏 0 人点赞

#gguf

更新：适用于ik_llama.cpp的Qwen-27B-IQ4_KS和Qwen-27B-IQ_KS_KT量化版本，尤其针对16GB显存的NVIDIA显卡

Reddit r/LocalLLaMA ↗ · 3小时前

面向16GB显存NVIDIA GPU优化的新型Qwen3.6-27B GGUF量化版本，包含实验性Trellis变体，并附带了困惑度基准测试。

0 人收藏 0 人点赞

#gguf

MiniMax-M3-EAGLE3-GGUF - 兼容 Llama.cpp 的 MiniMax M3 EAGLE 草稿模型！

Reddit r/LocalLLaMA ↗ · 17小时前

现在有了适用于 llama.cpp 的 MiniMax M3 EAGLE 草稿模型的 GGUF 转换，可在兼容硬件上实现推测解码加速。

0 人收藏 0 人点赞

#gguf

Unsloth GLM-5.2 – 如何在本地运行

Hacker News Top ↗ · 23小时前缓存

使用Unsloth Dynamic GGUFs在本地运行Z.ai的开放模型GLM-5.2的指南。该模型拥有744B总参数量（40B活跃），1M上下文窗口，量化版本可将内存降至2-bit的239GB，使得在256GB Mac上实现本地推理成为可能。

0 人收藏 0 人点赞

#gguf

@KyleHessling1: 大家早上好！我们发布了Qwopus 3.6 27B-Coder-Compat，为各种测试框架带来了兼容性修复！这个版本…

X AI KOLs Timeline ↗ · 昨天缓存

Qwopus 3.6 27B-Coder-Compat 是新的GGUF版本，为各种测试框架带来了兼容性修复，减少了循环问题，提高了思考稳定性。它可以生成完整的HTML游戏，适合本地部署。

0 人收藏 0 人点赞

#gguf

Qwen 3.6 27b Abliterated (apostate)

Reddit r/LocalLLaMA ↗ · 2天前

用户发布了Apostate，这是Qwen 3.6 27B的去安全对齐版本，将安全对齐拒绝率从92%降低到7.6%，同时能力损失极小（KL 0.120）。

0 人收藏 0 人点赞

#gguf

@antirez：在 DwarfStar 中首次实现了 GLM 5.2 的基本工作版本。还需要一些时间才能变得足够好，但这只是一个有前景的开始……

X AI KOLs Following ↗ · 2天前缓存

Antirez 报告了在 DwarfStar 中首次实现 GLM 5.2 的工作版本，使用了 433 GB 的 GGUF 文件，运行于配备 512GB 内存的 M3 Ultra 上，不过还需要进一步优化。

0 人收藏 0 人点赞

#gguf

为什么AutoRound被严重忽视？

Reddit r/LocalLLaMA ↗ · 2天前

一位用户质疑为什么AutoRound——这款在低位宽下精度保留出色且能直接导出GGUF的量化工具，尽管在复杂模型（如Qwen3.6 27B）上表现优于标准AWQ和RTN，却仍然被忽视。

0 人收藏 0 人点赞

#gguf

empero-ai/Qwythos-9B-Claude-Mythos-5-1M-GGUF

Hugging Face Models Trending ↗ · 4天前缓存

Empero AI 发布了 Qwythos-9B-Claude-Mythos-5-1M-GGUF，这是一个基于 5 亿以上 tokens 的 Claude Mythos/Fable 轨迹（包含思维链）微调而成的 9B 参数推理模型，相比 Qwen3.5-9B 取得了显著提升，并通过 YaRN 旋度缩放支持 100 万 token 上下文。GGUF 量化版本支持在 llama.cpp 及兼容运行时上进行本地推理。

0 人收藏 0 人点赞

#gguf