@antirez:上传新的 2-bit HF imatrix GGUF:名称相同但内容不同,已修复共享专家的 down layer(原存在…
摘要
修复 imatrix 计算 bug 后,已将修正后的 2-bit GGUF 模型文件上传至 Hugging Face,从而提升了 logits 召回率并降低了误差。
上传新的 2-bit HF imatrix GGUF:名称相同但内容不同,已修复共享专家的 down layer(原 imatrix 计算中存在 bug)。logits 召回率有所提升,误差减小,...
相似文章
@ClementDelangue: 本地 AI 正在迎来它的时刻!以下是过去 8 个月每月新增的 GGUF 模型数量及相关见解……
本文强调了 Hugging Face 上本地 AI GGUF 模型创建量的显著激增,近几个月的每月新增量几乎翻倍,超过 9,000 个,这得益于工具的改进以及新的开源权重模型的发布。
KyleHessling1/Qwopus-GLM-18B-Merged-GGUF
实验性 18B 参数模型:将两个 Qwen-3.5-9B 微调模型堆叠后,用 1000 步 QLoRA“缝合”层边界;生成的 GGUF 在 44 项测试集上超越 Qwen 3.6-35B MoE,却只占 9.2 GB 显存。
LiquidAI/LFM2.5-8B-A1B-GGUF
LiquidAI 发布了其 LFM2.5-8B-A1B 模型的 GGUF 量化版本,并提供了在多个推理引擎上的使用说明。
@no_stp_on_snek: 经过测试该模型的一组提示词回放,我可以自信地说,它在对话角色扮演、指令遵循、线程讨论和交叉引用方面,完全可以替代我运行gpt-mini-5.1的某个产品。
使用Heretic方法和MPOA对Qwen3.6-35B-A3B进行去审查处理,拒绝率降低88%,同时保持模型质量。由llmfan46发布为GGUF量化版本。
hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF
一个 35B 参数的 Qwen3.6 模型,使用 Claude-Opus 风格的思维链蒸馏数据微调,并以 GGUF 量化格式发布,可在本地高效推理。