面向ReRAM的模型微调:解决I-V非线性和保持误差问题
摘要
提出了一种基于微调的硬件感知训练算法,以减轻ReRAM交叉阵列中的I-V非线性和保持误差,从而以最小开销实现鲁棒的DNN部署。在图像分类和问答任务上进行了评估,达到了接近基线的准确率。
arXiv:2606.17471v1 公告类型:新
摘要:传统的CPU、GPU和NPU架构越来越受到冯·诺依曼瓶颈的限制。虽然使用ReRAM交叉阵列的存内计算(IMC)提供了一种高密度、高能效的替代方案,但其实际部署受到非理想性的制约。现有的硬件感知训练框架通常需要从头开始训练,这对于现代大规模模型来说计算成本过高。在这项工作中,我们提出了一种基于微调的硬件感知训练算法,能够以最小的训练开销实现DNN在ReRAM上的鲁棒部署。我们的方法通过应用范围缩放的sinh变换来减轻I-V非线性,并在微调过程中直接将保持误差纳入正则化损失中。我们在图像分类和问答(QA)等模型和任务上评估了我们的框架。实验结果表明,我们的方法在ResNet18和DeiT-Tiny等大规模模型上达到了与基线模型相似的准确率。在ImageNet上,对于MobileNetV3系列,该技术的准确率下降不到2%。此外,将该技术应用于SQuAD v2数据集,F-1分数仅下降1点。
查看缓存全文
缓存时间: 2026/06/17 05:39
# 面向 ReRAM 的模型微调:解决 I-V 非线性和保持错误 Source: https://arxiv.org/abs/2606.17471 View PDF (https://arxiv.org/pdf/2606.17471) > 摘要:传统的 CPU、GPU 和 NPU 架构日益受到冯·诺依曼瓶颈的限制。尽管基于 ReRAM 交叉阵列的存内计算(In-Memory Computing, IMC)提供了一种高密度、节能的替代方案,但其实际部署受到非理想特性的制约。现有的硬件感知训练框架通常需要从头训练,这对于现代大规模模型而言计算开销巨大。本文提出了一种基于微调的硬件感知训练算法,使得深度神经网络(DNN)能够在 ReRAM 上以极小的训练开销实现鲁棒部署。我们的方法通过应用范围压缩 sinh 变换来缓解 I-V 非线性,并在微调过程中将保持错误直接纳入正则化损失。我们针对图像分类和问答(QA)等任务评估了该框架。实验结果表明,在 ResNet18 和 DeiT-Tiny 等大规模模型上,我们的方法取得了与基线模型相近的精度。在 ImageNet 数据集上针对 MobileNetV3 系列模型应用该技术时,精度下降不到 2%。此外,在 SQuAD v2 数据集上应用该技术仅导致 F-1 分数下降 1 点。 ## 提交历史 From: Ching-Yi Lin [view email (https://arxiv.org/show-email/a606c659/2606.17471)] **[v1]**Tue, 16 Jun 2026 03:29:51 UTC (4,429 KB)
相似文章
直接在DRAM中运行AI:浮点数解毒——纯逻辑如何释放学习的未来
BIN16在神经网络训练和推理中用布尔运算(XNOR+popcount)替代所有浮点运算,使得在现成的DRAM中直接计算成为可能,无需浮点数、梯度或超参数调优。仅用220行C代码,它就在一个训练周期内在MNIST上达到了82%的准确率。
微调陷阱:评估负迁移与PEFT在Sub-1B数学推理中的作用
本文对Sub-1B模型在数学推理任务上进行了基准测试,揭示全量微调会主动损害300M参数以下模型的性能,而LoRA和DoRA等参数高效微调(PEFT)则提供了稳定性。作者建议对所有对齐的Sub-1B模型默认使用PEFT,并警告不要对小于500M参数的架构使用全量微调,以防止灾难性遗忘。
LoRA如何记忆?面向LLM微调的参数化记忆定律
本文使用LoRA作为探针,研究了大语言模型中参数化记忆的定量极限,建立了幂律关系,并引入了一种名为MemFT的阈值引导优化方法,以提升记忆性能。
RAFT:缓解遗忘的领域微调中的数据优化与自适应蒸馏
RAFT是一个两阶段框架,用于LLM的领域特定微调。它通过优化监督数据和使用带有自适应损失平衡的在线策略蒸馏来解决灾难性遗忘问题,在提升领域精度的同时恢复通用能力,取得了显著改进。
当RL在SFT后失效:恢复模型可塑性以实现稳健的SFT到RL交接
本文研究了在大型语言模型的先SFT后RL流程中,过度监督微调(SFT)后模型可塑性的丧失问题,并提出了一种名为Rejuvenation的方法,该方法通过基于基线的模型融合和定向神经元重置来恢复可塑性,从而持续提升RL性能。