降低学习率比任何其他尝试都更好地修复了我的Qlora微调问题

Reddit r/LocalLLaMA 2026/05/14 12:40 新闻

fine-tuning qlora learning-rate llama-3-1 classification overfitting hyperparameter-tuning

摘要

一位用户发现，将学习率从2e-4降低到1e-4显著改善了Llama 3.1 8B在小型数据集（8k样本）上的QLoRA微调效果，防止了过拟合，并获得了更好的评估结果。

一直在用Qlora对llama 3.1 8b进行微调，用于一个分类任务，大约用了8k样本。有一段时间评估结果很差，我一直以为是数据有问题。尝试了清洗数据集、换不同的提示模板、调整rank和alpha，但没什么变化。后来把学习率从2e-4降到1e-4，并将轮次从3增加到5。在Hyperai上租的5090上跑了，因为我们实验室的机器一直有人用。结果完全不同。同样的数据，其他一切都没变。当数据集这么小时，2e-4实在太激进了。模型在第一个轮次就过拟合，然后在剩余的训练中原地打转。降低学习率给了它更多收敛空间，而不会过度偏离所有东西。另外，我还删掉了大约三分之一的数据集，主要是错误标注和模糊样本。数据少了，评估结果反而更好——是的，人人都这么说，但亲眼看到数字时感受不同，哈哈。2e-4到处是默认值，但我觉得它在数据集小于某个规模时效果不好。

查看原文

降低学习率比任何其他尝试都更好地修复了我的Qlora微调问题

相似文章

Hybrid-LoRA：桥接全微调与低秩适应的后训练方法

Recover-LoRA用于激进量化：通过合成数据上的知识蒸馏低秩适配恢复2比特语言模型精度

可以多小？LoRA微调270M-8B模型用于金融交易中的商户信息提取

超越 LoRA 与全参数微调：基于梯度引导优化器路由的大语言模型适配

QU-NLP 亮相 QIAS 2026：面向阿拉伯语伊斯兰继承推理的多阶段 QLoRA 微调

提交意见反馈