LayerRoute:基于输入条件的自适应层跳跃方法——通过LoRA微调实现代理语言模型优化
摘要
LayerRoute是一种轻量级适配器,能够根据输入类型在推理过程中选择性跳过Transformer块,通过门控路由和LoRA自适应实现计算节省,同时保持或提升模型质量。在代理语言模型上,它实现了12.91%的跳跃差异。
查看缓存全文
缓存时间: 2026/06/08 15:16
论文页面 - LayerRoute:基于LoRA微调的输入条件化自适应层跳跃,用于智能体语言模型
来源:https://huggingface.co/papers/2606.01838
摘要
LayerRoute 是一种轻量级适配器,可根据输入类型在推理过程中选择性地跳过 Transformer 块,通过门控路由和 LoRA 适配实现计算节省,同时保持或提升模型质量。
智能体语言模型系统会在两种结构上截然不同的步骤类型之间交替:结构化工具调用(short, deterministic, low perplexity)和开放规划/推理步骤(long, complex, high perplexity)。尽管存在这种异质性,当前推理系统仍为每个步骤分配相同的计算量。我们提出了 LayerRoute,这是一种轻量级适配器,学习在逐个输入的基础上选择性地跳过 Transformer 块。LayerRoute 为 Qwen2.5-0.5B-Instruct 中的 24 个 Transformer 块中的每一个增加了:(1)一个逐层路由器(约 897 个参数,Linear(896,1)),通过直通估计器输出硬二进制门控;(2)注意力投影 (Q/K/V/O) 上的 LoRA 适配器(秩为 8,约 108 万个参数)。主干权重保持冻结。在智能体数据(Hermes、Glaive、GSM8K、Turing)上进行一次端到端训练,并加入门控正则化项,迫使系统发现哪些块对于每种输入类型是可跳过的。经过 3000 步(在 A100 40GB 上耗时 6.4 分钟)后,LayerRoute 实现了 12.91% 的跳过差异:工具调用跳过了 15.25% 的 FLOPs,而规划步骤仅跳过 2.34%,仅使用了 110 万个可训练参数(占 4.94 亿主干参数的 0.22%)。由于 LoRA 适配,模型质量相比基础模型有所提升,工具调用的困惑度增量为 -1.29,规划步的困惑度增量为 -1.30。
查看 arXiv 页面 (https://arxiv.org/abs/2606.01838)
查看 PDF (https://arxiv.org/pdf/2606.01838)
项目页面 (https://arxiv.org/abs/2606.01838)
GitHub0 (https://github.com/hackie123/layerroute)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.01838)
在你的智能体中获取这篇论文:
hf papers read 2606.01838
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.01838 以从此页面链接它。
引用此论文的数据集0
没有数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.01838 以从此页面链接它。
引用此论文的 Space0
没有 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.01838 以从此页面链接它。
包含此论文的收藏0
没有收藏包含此论文
请将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接它。
相似文章
超越 LoRA 与全参数微调:基于梯度引导优化器路由的大语言模型适配
本文提出了一种混合 LoRA 与全参数微调(MoLF)框架,利用梯度引导的优化器路由在 LoRA 和全参数微调之间进行自适应切换。旨在通过结合全参数微调的可塑性与 LoRA 的正则化特性,克服仅依赖静态适配方法的结构局限性。
Aletheia:基于梯度引导的层选择方法,实现跨架构的高效LoRA微调
Aletheia 提出了一种基于梯度引导的层选择方法,用于高效的 LoRA 微调。该方法通过轻量级梯度探针识别与任务相关的 Transformer 层,并选择性地应用适配器,在 14 个模型上实现了 15%-28% 的训练加速,同时保持了在 MMLU、GSM8K 和 HumanEval 基准测试中的下游性能。
Hybrid-LoRA:桥接全微调与低秩适应的后训练方法
Hybrid-LoRA提出了一种框架,选择性地对一小部分模块进行全微调,同时对其他模块使用LoRA,在显著降低计算成本的同时实现了接近全微调的性能。实验表明,与现有参数高效基线方法相比,性能提升高达5.65%。
基于可学习秩的参数高效微调
来自阿德莱德大学的研究人员提出了 LR-LoRA(可学习秩 LoRA),这是一种参数高效微调方法,在训练过程中动态学习每个 Transformer 层的适配器秩,而非使用固定的全局秩。LR-LoRA 在语言理解和常识推理基准测试上达到了最先进的性能,超越了固定秩 LoRA 基线。
Echo-LoRA:通过跨层表示注入实现参数高效微调
本文介绍了 Echo-LoRA,这是一种新的参数高效微调方法,它将来自深层源层的跨层表示注入到浅层 LoRA 模块中,从而在不增加推理开销的情况下提升性能。