标签
使用Unsloth Dynamic GGUFs在本地运行Z.ai的开放模型GLM-5.2的指南。该模型拥有744B总参数量(40B活跃),1M上下文窗口,量化版本可将内存降至2-bit的239GB,使得在256GB Mac上实现本地推理成为可能。
一位开发者使用Unsloth框架对小型Qwen 3 0.6B模型进行微调,用于对家庭问题进行分类,仅用850个训练样本便取得了良好效果。
一条推广Qwen 3.6 27b模型并推荐UnslothAI在任何GPU上运行它的推文。
Unsloth 成功将 GLM-5.2 模型以 2-bit 量化压缩至 238GB,可在 256GB Mac 上本地运行,保留约 82% 的准确率。
UnslothAI 宣布 GLM-5.2,Z.ai 的最强开源模型,拥有 744B 参数,现在可以通过动态 GGUF 量化在本地运行,将大小减少约 84% 至 239GB,同时保留约 82% 的准确率。它适用于 256GB Mac 以及 RAM/VRAM 配置,并支持长上下文、推理和代理任务。
GLM 5.2 GGUF 量化模型已发布,8位版本大小约为完整模型的一半;更小版本即将推出。
Daniel Han 构建了 Unsloth,该工具通过重写 GPU 内核,使单张 GPU 的微调速度提升 2 到 3 倍,让众多开源用户无需集群即可训练模型。
Unsloth 发布了 Kimi K2.7 Code 的 GGUF 量化版本,这是一个基于 Kimi K2.6 构建的 1 万亿参数 MoE 编码模型,具有改进的 Token 效率和智能体编码能力。
Unsloth 发布了 MiniMax-M3 多模态模型的 GGUF 量化版本,支持图像-文本到文本任务,兼容 Transformers、llama.cpp、vLLM 等推理引擎。
Unsloth AI宣布,Gemma 4在MTP GGUFs上运行速度快了2倍,使得在如MacBook Pro M1 Max这样的硬件上以72 tokens/s的速度运行本地编码代理成为可能。
Unsloth 推出 2-bit 量化的 Gemma 4 12B 模型,仅 4.66GB 可在本地运行,具备自主联网搜索、深度分析等类麦肯锡咨询能力。
用户正在使用 Unsloth 和 TRL 实现带验证器的推理训练,报告了使用小型 SLM 和微型 RM 本地生成类似 GRPO 的样本的进展,并承诺很快发布视频。
Unsloth 发布了 Google DeepMind 的 DiffusionGemma (26B-A4B) 的 GGUF 量化版本,这是一种新的块扩散架构,可实现更快的文本生成,已准备好用于 llama.cpp。
Unsloth 发布了 Gemma 4 QAT MTP 辅助模型,以 GGUF 文件形式在 Hugging Face 上提供,支持 q8_0 及更大量化格式。
一份详细的基准测试,比较 ByteShape 和 Unsloth 对 Qwen3.6-35B-A3B 的量化在工具调用性能、KV 缓存量化效果以及使用 llama.cpp 和 tool-eval-bench 的长上下文退化情况。
讨论对像Gemma-4这样的量化感知训练(QAT)模型使用替代量化方法是否合理,质疑unsloth的基准测试显示其更接近QAT微调的性能是有益还是适得其反。
Unsloth 已为 Gemma 4 模型(31B、26B-A4B、12B)发布了多 Token 预测 (MTP) GGUF 权重,提供 Q8、F16 和 BF16 精度,可在 Hugging Face 上获取。
Unsloth 发布了Google DeepMind的Gemma 4模型的GGUF量化版本,通过量化感知训练(QAT)优化,在保持质量的同时降低内存需求,支持多种格式和大小,适用于不同的部署场景。