标签
本文详细介绍了 LoRA 及其变体(QLoRA、VeRA、DoRA)的原理,解释了如何通过低秩分解减少可训练参数,实现高效微调大型模型。
这篇帖子演示了如何通过单个提示词免费微调模型,利用了新的Google Colab CLI以及Hugging Face的TRL和trackio工具,所有这些都由AI代理编排。
使用QLoRA对小型LLM(3B-7B)进行生物医学声明验证的微调,以44.5倍更低的成本实现了比GPT-4o和GPT-5更高的F1分数,并揭示了SciFact中的一个结构伪影。该研究表明,在结构合理的数据上进行训练可实现稳健的跨域迁移。
bytkim 发布了 Qwen3.6-27B 的 4-bit QLoRA SFT 多令牌预测微调版本,打包为 GGUF 格式,用于本地代理编码。该无思考调优版本专为代理循环中的低延迟直接输出而设计。
本文提出了一种迭代不平衡感知微调方法,使用 Qwen3-8B 和 QLoRA 进行心理防御机制分类,在 PsyDefDetect 2026 共享任务中取得了 0.3917 的宏 F1 分数,在 21 支队伍中排名第 4。
作者详细介绍了尝试在Nvidia 5090 GPU上使用qlora以及来自open-dllm和d3LLM的修改来本地训练Qwen 3.6 27B自回归到扩散模型的过程,在探索单步扩散技术时遇到了显存限制和硬件问题。
Silicon Studio 是一款开源桌面应用,支持在 Apple Silicon Mac 上使用 MLX 进行本地大语言模型微调和推理,具备数据准备、模型管理和可视化配置等功能。
本文介绍了HPC-LLM,一个面向HPC工作流的检索增强与领域自适应助手,基于HPC文档使用QLoRA微调Llama 3.1 8B模型。实验表明,该模型在资源需求显著降低的情况下,性能与更大的通用模型相当。
一个个人项目最终产出了一篇ACL 2026论文,介绍了TIME方法,训练Qwen3模型进行短时、上下文触发的思考,而非过度推理。该工作使用了QLoRA和四阶段课程,所有数据和代码均已开源发布。
Hugging Face 的 PEFT 库实现了在单张 GPU 上对大型模型进行参数高效微调,在降低计算和存储成本的同时保持性能。
一位用户发现,将学习率从2e-4降低到1e-4显著改善了Llama 3.1 8B在小型数据集(8k样本)上的QLoRA微调效果,防止了过拟合,并获得了更好的评估结果。
研究人员使用QLoRA与GraphRAG对BioMistral-7B进行微调,构建面向南非结核病诊疗的LLM,在上下文对齐方面优于基座模型。
实验性 18B 参数模型:将两个 Qwen-3.5-9B 微调模型堆叠后,用 1000 步 QLoRA“缝合”层边界;生成的 GGUF 在 44 项测试集上超越 Qwen 3.6-35B MoE,却只占 9.2 GB 显存。