标签
Unsloth,一款流行的 LLM 微调库,宣布即将支持 Apple Silicon 设备,将其优化能力扩展至 NVIDIA GPU 之外。
一份逐步指南,介绍如何通过Unsloth和llama.cpp在Qwen3.6和Gemma 4等本地LLM中使用MCP服务器,从而利用工具、文件及API实现私有的自动化工作流。
宣布即将发布一个关于训练小型模型用于偏好调优的视频,涵盖奖励模型、RLHF、DPO、ORPO,以及Unsloth和TRL的使用。
UnslothAI 宣布,其 4-bit Qwen3.6 MTP GGUF 模型仅凭单个提示即可搜索超过70个网站,通过 Unsloth Studio 可在20GB内存上本地运行。此次更新增加了自动 MTP 和推测解码支持。
Unsloth Qwen3.6 27B Q6_K 在 RTX 5090 上通过 MTP 达到每秒超过 100 个令牌,相比没有 MTP 时的 45-50 令牌/秒显著提升。
一位用户分享了对Unsloth量化模型的偏好,原因包括发布速度快、困惑度低,并将其与Apex MoE量化模型进行比较,同时向社区询问他们最喜欢的量化发布者。
本文重点介绍了如何在本地笔记本上使用 llama.cpp 和 Unsloth 4-bit 量化免费运行 Qwen3-35B-A3B。
该推文宣布用户现可通过 Unsloth Colab 笔记本,在浏览器中免费微调 Google 的 Gemma 4 模型,极大降低了自定义模型的门槛。
Unsloth 发布了优化后的 Qwen3.6-27B MTP 模型 GGUF 版本,与前序量化版本相比,推理速度显著提升(在 RTX 5090 上最高可达 114 tok/s)。
一名用户在消费级硬件上使用 Unsloth 对 Qwen 3.6 35B 进行了基准测试,对比了 MTP、TriAttention 和 TurboQuant 优化效果,发现 TurboQuant 最为有效。
本文提供了一份详细教程,介绍如何通过 Unsloth Studio 和 Pi 编码框架配置基于 Qwen3.6-27B 的本地编码智能体。文章强调了使用 GGUF 量化模型在消费级硬件(如搭载 Apple Silicon 芯片的 Mac 电脑)上实现高效推理的优势。
本文宣布在 Hugging Face 上发布 Qwen3.6-35B-A3B 模型权重,该模型由 Unsloth 进行优化,并采用多令牌预测(MTP)技术,以通过 llama.cpp 实现更快的生成速度。文章重点介绍了其在智能体编码能力、工具调用以及推理上下文保留方面的改进。
Unsloth 发布了 Qwen3.6-27B 模型的 GGUF 权重,该模型支持多令牌预测(MTP),可实现更快的生成速度并增强了智能体(Agentic)编码能力。
NVIDIA和Unsloth发布了一篇技术指南,详细介绍了三种底层优化方法,可将LLM微调速度提升高达25%,包括打包序列缓存、双缓冲检查点存储和优化的MoE路由。该指南提供了深入的系统级解释和基准测试,面向机器学习工程师和开发者。
该 Hugging Face 仓库提供了 Qwen3.6-27B 的 GGUF 文件,这些文件在 Unsloth UD XL 量化版本的基础上嫁接了多 Token 预测 (MTP) 层。它还包含了构建支持 MTP 的 llama.cpp 的说明,以实现投机解码。
本文档介绍 Qwen3.5-9B-DeepSeek-V4-Flash,这是一款通过知识蒸馏技术将 DeepSeek-V4 的推理能力迁移至 9B 参数小模型中的 AI 模型,旨在实现高效推理。
用户展示了在本地使用 llama-server 运行 Qwen 3.6 27B/35B,将 Claude Code 的 API 成本从 142 美元降至 8 小时 vibe-coding 会话不到 4 美元,4500 美元的双 RTX 3090 设备可在 30 天内回本。
Unsloth 发布了 Qwen3.6-27B 模型的 GGUF 量化版本,具备更强的智能体编程能力、工具调用功能,并支持 Unsloth Studio。