使用 LoRA 和 NEFTune 对 DeepSeek-R1-8B 模型进行指令微调

arXiv cs.AI 论文

摘要

本文研究了使用 LoRA 和 NEFTune 对 DeepSeek-R1-8B 进行指令微调用于金融命名实体识别,取得了 0.912 的微平均 F1 值,并优于多个基线模型。

arXiv:2606.10392v1 公告类型:新 摘要:金融命名实体识别(NER)对于将非结构化金融报告和新闻转化为结构化知识图谱至关重要。然而,通用大语言模型(LLMs)经常错误分类金融实体或忽略领域特定模式。本文研究了使用近期开源大语言模型 DeepSeek-R1-8B,结合低秩适配(LoRA)和噪声嵌入微调(NEFTune)进行金融 NER。我们语料库中的1693个样本中,每个带标注的句子都被转换为指令-输入-输出三元组。我们在 Transformer 层中插入轻量级 LoRA 矩阵,并应用 NEFTune 通过在训练期间向嵌入向量添加均匀噪声来提高泛化能力。实验表明,LoRA 适配的 DeepSeek-R1-8B 在七种实体类型(公司、日期、地点、金额、人物、产品和数量)上取得了 0.901 的微平均 F1,而添加 NEFTune 进一步将微平均 F1 提升至 0.912,优于 Llama3-8B、Qwen3-8B、Baichuan2-7B、T5 和 BERT-Base 等基线模型。
查看原文
查看缓存全文

缓存时间: 2026/06/10 06:14

# 指令微调DeepSeek-R1-8B模型:结合LoRA与NEFTune
来源:https://arxiv.org/abs/2606.10392
查看PDF (https://arxiv.org/pdf/2606.10392)

> 摘要:金融命名实体识别(NER)对于将非结构化金融报告和新闻转化为结构化知识图谱至关重要。然而,通用大型语言模型(LLMs)常常错误分类金融实体,或忽略领域特定的模式。本文研究了将近期开源大型语言模型DeepSeek-R1-8B与低秩适配(LoRA)和噪声嵌入微调(NEFTune)相结合用于金融NER的方法。我们语料库中的1693个样本,每个已标注句子被转换为指令-输入-输出三元组。我们在Transformer层中插入轻量级LoRA矩阵,并应用NEFTune——在训练过程中向嵌入向量添加均匀噪声——以提升泛化能力。实验表明,LoRA适配的DeepSeek-R1-8B在七种实体类型(公司、日期、地点、金额、人物、产品和数量)上取得了0.901的微平均F1值,而加入NEFTune后,微平均F1值进一步提升至0.912,超越了Llama3-8B、Qwen3-8B、Baichuan2-7B、T5和BERT-Base基线模型。

## 提交历史

来自:Mingni Luo \[查看邮件 (https://arxiv.org/show-email/b0599c0c/2606.10392)\] **\[v1\]**2026年6月9日 星期二 04:14:49 UTC (493 KB)

相似文章

可以多小?LoRA微调270M-8B模型用于金融交易中的商户信息提取

arXiv cs.AI

本文是一项面向部署的研究,比较了24种模型变体(参数规模从270M到8B)在金融交易字符串中提取商户信息时的LoRA微调效果。作者发现,像Qwen 3.5 4B这样的小型模型可达到96.6%的F1分数,仅比8B基线低0.35个百分点,同时显著降低了延迟和成本。

DeepSeek V4 完整论文发布:FP4 QAT 技术细节与训练稳定性技巧 [D]

Reddit r/MachineLearning

DeepSeek 发布了完整的 V4 论文,详细介绍了 FP4 量化感知训练、MoE 训练稳定性技巧(预判路由与 SwiGLU 截断),以及用于 RLHF 的生成式奖励模型,实现了显著的效率提升——V4-Flash 在 100 万上下文长度下仅需 V3.2 的 10% FLOPs 和 7% 的 KV 缓存。

Hybrid-LoRA:桥接全微调与低秩适应的后训练方法

arXiv cs.LG

Hybrid-LoRA提出了一种框架,选择性地对一小部分模块进行全微调,同时对其他模块使用LoRA,在显著降低计算成本的同时实现了接近全微调的性能。实验表明,与现有参数高效基线方法相比,性能提升高达5.65%。