降低学习率比任何其他尝试都更好地修复了我的Qlora微调问题

Reddit r/LocalLLaMA 新闻

摘要

一位用户发现,将学习率从2e-4降低到1e-4显著改善了Llama 3.1 8B在小型数据集(8k样本)上的QLoRA微调效果,防止了过拟合,并获得了更好的评估结果。

一直在用Qlora对llama 3.1 8b进行微调,用于一个分类任务,大约用了8k样本。有一段时间评估结果很差,我一直以为是数据有问题。尝试了清洗数据集、换不同的提示模板、调整rank和alpha,但没什么变化。后来把学习率从2e-4降到1e-4,并将轮次从3增加到5。在Hyperai上租的5090上跑了,因为我们实验室的机器一直有人用。结果完全不同。同样的数据,其他一切都没变。当数据集这么小时,2e-4实在太激进了。模型在第一个轮次就过拟合,然后在剩余的训练中原地打转。降低学习率给了它更多收敛空间,而不会过度偏离所有东西。另外,我还删掉了大约三分之一的数据集,主要是错误标注和模糊样本。数据少了,评估结果反而更好——是的,人人都这么说,但亲眼看到数字时感受不同,哈哈。2e-4到处是默认值,但我觉得它在数据集小于某个规模时效果不好。
查看原文

相似文章

Hybrid-LoRA:桥接全微调与低秩适应的后训练方法

arXiv cs.LG

Hybrid-LoRA提出了一种框架,选择性地对一小部分模块进行全微调,同时对其他模块使用LoRA,在显著降低计算成本的同时实现了接近全微调的性能。实验表明,与现有参数高效基线方法相比,性能提升高达5.65%。

可以多小?LoRA微调270M-8B模型用于金融交易中的商户信息提取

arXiv cs.AI

本文是一项面向部署的研究,比较了24种模型变体(参数规模从270M到8B)在金融交易字符串中提取商户信息时的LoRA微调效果。作者发现,像Qwen 3.5 4B这样的小型模型可达到96.6%的F1分数,仅比8B基线低0.35个百分点,同时显著降低了延迟和成本。

QU-NLP 亮相 QIAS 2026:面向阿拉伯语伊斯兰继承推理的多阶段 QLoRA 微调

arXiv cs.CL

本文介绍了卡塔尔大学针对阿拉伯语伊斯兰继承推理提出的基于 Qwen3-4B 的多阶段 QLoRA 微调方法。该方法首先对伊斯兰教令(fatwa)记录进行领域适配,随后在 12,000 个结构化继承案例上进行任务特定训练,最终达到 90% 的 MIR-E 得分。其性能媲美 Gemini-2.5-flash 等商业系统,且仅需极少的计算资源。