标签
本文针对顺序训练的早退出神经网络中的灾难性遗忘问题,提出了两种分别基于弹性权重巩固(Elastic Weight Consolidation)和无遗忘学习(Learning without Forgetting)的方法,旨在在添加新退出点的同时保留早期退出点的性能。
作者提出一种二维早退方法,同时裁剪层与输入句子,在 Llama 3.1/3.2、Gemma 与 Qwen 模型的情感任务上额外获得 1.4–2.3 倍加速。
River-LLM 提出一种无需训练的 decoder-only 大模型早退框架,通过 KV 共享消除 KV-cache 缺口,在无损质量的前提下实现 1.71–2.16 倍推理加速。