early-exit

#early-exit

在顺序训练的早退出神经网络中平衡稳定性与可塑性

arXiv cs.LG ↗ · 2天前缓存

本文针对顺序训练的早退出神经网络中的灾难性遗忘问题，提出了两种分别基于弹性权重巩固（Elastic Weight Consolidation）和无遗忘学习（Learning without Forgetting）的方法，旨在在添加新退出点的同时保留早期退出点的性能。

0 人收藏 0 人点赞

#early-exit

arXiv cs.CL ↗ · 2026-04-22 缓存

作者提出一种二维早退方法，同时裁剪层与输入句子，在 Llama 3.1/3.2、Gemma 与 Qwen 模型的情感任务上额外获得 1.4–2.3 倍加速。

0 人收藏 0 人点赞

#early-exit

Hugging Face Daily Papers ↗ · 2026-04-20 缓存

River-LLM 提出一种无需训练的 decoder-only 大模型早退框架，通过 KV 共享消除 KV-cache 缺口，在无损质量的前提下实现 1.71–2.16 倍推理加速。

0 人收藏 0 人点赞