标签
使用Unsloth Dynamic GGUFs在本地运行Z.ai的开放模型GLM-5.2的指南。该模型拥有744B总参数量(40B活跃),1M上下文窗口,量化版本可将内存降至2-bit的239GB,使得在256GB Mac上实现本地推理成为可能。
一份关于在消费级硬件上优化本地LLM推理的全面指南,涵盖llama.cpp、vLLM和LM Studio等工具,并提供关于内存层次结构、层放置和常见故障模式的实用建议。
DwarfStar 是一个自包含的原生推理引擎,专为 DeepSeek V4 Flash 和 PRO 模型优化,支持 Metal、CUDA 和 ROCm 后端,专注于高端个人电脑和 Mac Studio。
Antirez 报告了在 DwarfStar 中首次实现 GLM 5.2 的工作版本,使用了 433 GB 的 GGUF 文件,运行于配备 512GB 内存的 M3 Ultra 上,不过还需要进一步优化。
GLM 5.2 提供了改进的令牌效率,让用户能够使用不到一半的令牌即可达到最高级别智能的98%。与资源密集型的‘最高’级别相比,模型的‘高’努力级别为日常使用提供了一个实用的替代方案。
GLM-5.2 现已支持通过 llama.cpp 和 Unsloth Studio 本地运行。
Unsloth 成功将 GLM-5.2 模型以 2-bit 量化压缩至 238GB,可在 256GB Mac 上本地运行,保留约 82% 的准确率。
一位用户仅用CPU在本地运行GLM-5.2,演示如何在简陋的配置上运行大型模型。
GLM 5.2 是一个开放权重的大语言模型,其能力足以让企业在可负担的硬件上本地管理其 IT 需求,可能彻底改变中小企业的数据管理方式。
Mia-AiLab发布了Gemmable 4 12B,这是Google Gemma 4 12B模型的微调版本,使用了Fable-5风格推理和助手轨迹,提供GGUF和MLX格式用于本地推理。
UnslothAI 宣布 GLM-5.2,Z.ai 的最强开源模型,拥有 744B 参数,现在可以通过动态 GGUF 量化在本地运行,将大小减少约 84% 至 239GB,同时保留约 82% 的准确率。它适用于 256GB Mac 以及 RAM/VRAM 配置,并支持长上下文、推理和代理任务。
文章介绍了Xenova开源了27个自定义WebGPU内核,使得Gemma 4模型可以在浏览器中完全离线、本地运行,性能达到255 tok/s,并讨论了隐私、离线使用等优势。同时也提到了FLUX.2的3D生成能力。
经过剪枝和量化的 MiniMax-M3 版本(MiniMax-M3-Medium-JANG_2L),针对使用 vMLX 在 128GB Mac 上运行进行了优化,采用 32% 专家剪枝和 JANG_2L 混合精度量化,使其占用空间约 105 GB。
parakeet.cpp 能够在本地的 OpenAI API 背后运行 NVIDIA Parakeet ASR,提供预构建的 Docker 镜像,支持 CPU 和 CUDA(包括 arm64),实现带有词级时间戳的实时转录。
Mia-AiLab 发布了 Qwable-3.6-27b-MTP,这是基于 Qwen3.6-27B 的完整微调检查点,使用了经过清洗的 Fable 5 推理与指令数据集,专注于代码、结构化推理以及带有 MTP 层的本地推理。
WeiboAI 发布了 VibeThinker-3B,一个在本地测试编码任务的小型 3B 推理模型,在算法问题上取得了 3/3 的成绩。
Hugging Face 仓库 (kaitchup/Qwen3.6-27B-GGUF-MoQ) 提供了 Qwen3.6-27B MoQ 模型的 GGUF 量化权重,支持使用 llama.cpp 和 Ollama 等工具进行本地推理。
一条推文提醒开发者,他们可以使用 llama.cpp 和 OpenCode 在本地运行编码代理,实现快速、可靠且私密的推理,并展示了使用 UnslothAI 的 North-Mini-Code-1.0-GGUF 模型的效果。
Gemma 4 现在使用 MTP GGUF 格式速度快2倍,且仅需6GB内存即可本地运行。相关文章解释了GGUF的工作原理,包括量化和内存映射。