unsloth

#unsloth

Unsloth GLM-5.2 – 如何在本地运行

Hacker News Top ↗ · 2天前缓存

使用Unsloth Dynamic GGUFs在本地运行Z.ai的开放模型GLM-5.2的指南。该模型拥有744B总参数量（40B活跃），1M上下文窗口，量化版本可将内存降至2-bit的239GB，使得在256GB Mac上实现本地推理成为可能。

0 人收藏 0 人点赞

#unsloth

对本地LLM如Qwen 3:0.6B进行微调以对问题分类，效果良好

Hacker News Top ↗ · 3天前缓存

一位开发者使用Unsloth框架对小型Qwen 3 0.6B模型进行微调，用于对家庭问题进行分类，仅用850个训练样本便取得了良好效果。

0 人收藏 0 人点赞

#unsloth

@SlimTradeyBaby: 在下方列出你的GPU，我会告诉你运行什么模型和配置。开玩笑的。没必要。Qwen 3.6 27b @Unsloth…

X AI KOLs Timeline ↗ · 4天前缓存

一条推广Qwen 3.6 27b模型并推荐UnslothAI在任何GPU上运行它的推文。

0 人收藏 0 人点赞

#unsloth

@10xmylife: Unsloth 成功将 2-bit 版本的 GLM-5.2 部署在了 256GB 的 Mac 上

X AI KOLs Following ↗ · 5天前缓存

Unsloth 成功将 GLM-5.2 模型以 2-bit 量化压缩至 238GB，可在 256GB Mac 上本地运行，保留约 82% 的准确率。

0 人收藏 0 人点赞

#unsloth

@UnslothAI: GLM-5.2 现在可以本地运行！2-bit 模型在从 1.51TB 缩小到 238GB（-84% 大小）后保留了约 82% 的准确率…

X AI KOLs Timeline ↗ · 6天前缓存

UnslothAI 宣布 GLM-5.2，Z.ai 的最强开源模型，拥有 744B 参数，现在可以通过动态 GGUF 量化在本地运行，将大小减少约 84% 至 239GB，同时保留约 82% 的准确率。它适用于 256GB Mac 以及 RAM/VRAM 配置，并支持长上下文、推理和代理任务。

0 人收藏 0 人点赞

#unsloth

@aisearchio: GLM 5.2 GGUF 已经来了！8位版本大小约为完整模型的一半。更小版本即将推出 https://huggingfa…

X AI KOLs Timeline ↗ · 2026-06-17 缓存

GLM 5.2 GGUF 量化模型已发布，8位版本大小约为完整模型的一半；更小版本即将推出。

0 人收藏 0 人点赞

#unsloth

@Sentdex: 检测到：Unsloth 对 GLM 5.2 的量化版本即将发布。

X AI KOLs Following ↗ · 2026-06-17 缓存

Unsloth 针对 GLM 5.2 模型的量化版本正在发布中。

0 人收藏 0 人点赞

#unsloth

@h100envy: Daniel Han 创建了 Unsloth，这正是半数开源项目能在单张 GPU 而非集群上微调模型的原因。他还……

X AI KOLs Timeline ↗ · 2026-06-17 缓存

Daniel Han 构建了 Unsloth，该工具通过重写 GPU 内核，使单张 GPU 的微调速度提升 2 到 3 倍，让众多开源用户无需集群即可训练模型。

0 人收藏 0 人点赞

#unsloth

unsloth/Kimi-K2.7-Code-GGUF

Hugging Face Models Trending ↗ · 2026-06-12 缓存

Unsloth 发布了 Kimi K2.7 Code 的 GGUF 量化版本，这是一个基于 Kimi K2.6 构建的 1 万亿参数 MoE 编码模型，具有改进的 Token 效率和智能体编码能力。

0 人收藏 0 人点赞

#unsloth

Unsloth MiniMax M3 GGUF

Reddit r/LocalLLaMA ↗ · 2026-06-12

Unsloth 正在将 MiniMax M3 模型的 GGUF 量化版本上传到 Hugging Face。

0 人收藏 0 人点赞

#unsloth

unsloth/MiniMax-M3-GGUF

Hugging Face Models Trending ↗ · 2026-06-12 缓存

Unsloth 发布了 MiniMax-M3 多模态模型的 GGUF 量化版本，支持图像-文本到文本任务，兼容 Transformers、llama.cpp、vLLM 等推理引擎。

0 人收藏 0 人点赞

#unsloth

@Freerunnering: 这实际上使得Gemma 4 26B-4A在我的MacBook Pro M1 Max上以72tk/s的速度可用于编码代理。这个视频是实时的，…

X AI KOLs Timeline ↗ · 2026-06-12 缓存

Unsloth AI宣布，Gemma 4在MTP GGUFs上运行速度快了2倍，使得在如MacBook Pro M1 Max这样的硬件上以72 tokens/s的速度运行本地编码代理成为可能。

0 人收藏 0 人点赞

#unsloth

@VincentLogic: 4.66 GB 的模型，居然在本地跑出了麦肯锡咨询顾问的水平？ Unsloth 最新的 2-bit Gemma 4 12B，效果真的炸裂。这不仅仅是聊天，它直接化身“超级 Agent”自主干活：自主联网搜索引用 15+ 信源深度区分…

X AI KOLs Timeline ↗ · 2026-06-12 缓存

Unsloth 推出 2-bit 量化的 Gemma 4 12B 模型，仅 4.66GB 可在本地运行，具备自主联网搜索、深度分析等类麦肯锡咨询能力。

0 人收藏 0 人点赞

#unsloth

@neural_avb: 正在研究推理训练文档。准备编写验证器环境，然后用 Unsloth/TRL 搞起来！如果一切顺利，很快就会出视频。

X AI KOLs Timeline ↗ · 2026-06-11 缓存

用户正在使用 Unsloth 和 TRL 实现带验证器的推理训练，报告了使用小型 SLM 和微型 RM 本地生成类似 GRPO 的样本的进展，并承诺很快发布视频。

0 人收藏 0 人点赞

#unsloth

unsloth/diffusiongemma-26B-A4B-it-GGUF

Hugging Face Models Trending ↗ · 2026-06-10 缓存

Unsloth 发布了 Google DeepMind 的 DiffusionGemma (26B-A4B) 的 GGUF 量化版本，这是一种新的块扩散架构，可实现更快的文本生成，已准备好用于 llama.cpp。

0 人收藏 0 人点赞

#unsloth

Unsloth Gemma 4 QAT MTP 辅助模型现已可用

Reddit r/LocalLLaMA ↗ · 2026-06-09

Unsloth 发布了 Gemma 4 QAT MTP 辅助模型，以 GGUF 文件形式在 Hugging Face 上提供，支持 q8_0 及更大量化格式。

0 人收藏 0 人点赞

#unsloth

Qwen3.6-35B-A3B 工具调用基准测试：ByteShape 对比 Unsloth GGUFs、KV 缓存量化及长上下文性能

Reddit r/LocalLLaMA ↗ · 2026-06-08

一份详细的基准测试，比较 ByteShape 和 Unsloth 对 Qwen3.6-35B-A3B 的量化在工具调用性能、KV 缓存量化效果以及使用 llama.cpp 和 tool-eval-bench 的长上下文退化情况。

0 人收藏 0 人点赞

#unsloth

对QAT模型使用替代量化有意义吗？[D]

Reddit r/MachineLearning ↗ · 2026-06-06

讨论对像Gemma-4这样的量化感知训练(QAT)模型使用替代量化方法是否合理，质疑unsloth的基准测试显示其更接近QAT微调的性能是有益还是适得其反。

0 人收藏 0 人点赞

#unsloth

Unsloth 刚刚为 Gemma 4 发布了 MTP GGUF 权重！

Reddit r/LocalLLaMA ↗ · 2026-06-05

Unsloth 已为 Gemma 4 模型（31B、26B-A4B、12B）发布了多 Token 预测 (MTP) GGUF 权重，提供 Q8、F16 和 BF16 精度，可在 Hugging Face 上获取。

0 人收藏 0 人点赞

#unsloth

unsloth/gemma-4-12B-it-qat-GGUF

Hugging Face Models Trending ↗ · 2026-06-05 缓存

Unsloth 发布了Google DeepMind的Gemma 4模型的GGUF量化版本，通过量化感知训练（QAT）优化，在保持质量的同时降低内存需求，支持多种格式和大小，适用于不同的部署场景。

0 人收藏 0 人点赞

unsloth

提交意见反馈