降低学习率比任何其他尝试都更好地修复了我的Qlora微调问题
摘要
一位用户发现,将学习率从2e-4降低到1e-4显著改善了Llama 3.1 8B在小型数据集(8k样本)上的QLoRA微调效果,防止了过拟合,并获得了更好的评估结果。
一直在用Qlora对llama 3.1 8b进行微调,用于一个分类任务,大约用了8k样本。有一段时间评估结果很差,我一直以为是数据有问题。尝试了清洗数据集、换不同的提示模板、调整rank和alpha,但没什么变化。后来把学习率从2e-4降到1e-4,并将轮次从3增加到5。在Hyperai上租的5090上跑了,因为我们实验室的机器一直有人用。结果完全不同。同样的数据,其他一切都没变。当数据集这么小时,2e-4实在太激进了。模型在第一个轮次就过拟合,然后在剩余的训练中原地打转。降低学习率给了它更多收敛空间,而不会过度偏离所有东西。另外,我还删掉了大约三分之一的数据集,主要是错误标注和模糊样本。数据少了,评估结果反而更好——是的,人人都这么说,但亲眼看到数字时感受不同,哈哈。2e-4到处是默认值,但我觉得它在数据集小于某个规模时效果不好。
相似文章
Hybrid-LoRA:桥接全微调与低秩适应的后训练方法
Hybrid-LoRA提出了一种框架,选择性地对一小部分模块进行全微调,同时对其他模块使用LoRA,在显著降低计算成本的同时实现了接近全微调的性能。实验表明,与现有参数高效基线方法相比,性能提升高达5.65%。
Recover-LoRA用于激进量化:通过合成数据上的知识蒸馏低秩适配恢复2比特语言模型精度
AMD的研究人员提出了Recover-LoRA,该方法利用基于合成数据的知识蒸馏低秩适配,恢复因LLM激进2比特量化而损失的精度。在Qwen3-4B模型上仅使用1万个合成样本,就在12个基准测试中的9个上实现了80%–95%的精度恢复。
可以多小?LoRA微调270M-8B模型用于金融交易中的商户信息提取
本文是一项面向部署的研究,比较了24种模型变体(参数规模从270M到8B)在金融交易字符串中提取商户信息时的LoRA微调效果。作者发现,像Qwen 3.5 4B这样的小型模型可达到96.6%的F1分数,仅比8B基线低0.35个百分点,同时显著降低了延迟和成本。
超越 LoRA 与全参数微调:基于梯度引导优化器路由的大语言模型适配
本文提出了一种混合 LoRA 与全参数微调(MoLF)框架,利用梯度引导的优化器路由在 LoRA 和全参数微调之间进行自适应切换。旨在通过结合全参数微调的可塑性与 LoRA 的正则化特性,克服仅依赖静态适配方法的结构局限性。
QU-NLP 亮相 QIAS 2026:面向阿拉伯语伊斯兰继承推理的多阶段 QLoRA 微调
本文介绍了卡塔尔大学针对阿拉伯语伊斯兰继承推理提出的基于 Qwen3-4B 的多阶段 QLoRA 微调方法。该方法首先对伊斯兰教令(fatwa)记录进行领域适配,随后在 12,000 个结构化继承案例上进行任务特定训练,最终达到 90% 的 MIR-E 得分。其性能媲美 Gemini-2.5-flash 等商业系统,且仅需极少的计算资源。