LayerRoute:基于输入条件的自适应层跳跃方法——通过LoRA微调实现代理语言模型优化

Hugging Face Daily Papers 论文

摘要

LayerRoute是一种轻量级适配器,能够根据输入类型在推理过程中选择性跳过Transformer块,通过门控路由和LoRA自适应实现计算节省,同时保持或提升模型质量。在代理语言模型上,它实现了12.91%的跳跃差异。

代理语言模型系统交替进行两种结构不同的步骤:结构化工具调用(简短、确定、低困惑度)和开放式的规划/推理步骤(长、复杂、高困惑度)。尽管存在这种异质性,当前的推理系统对每个步骤应用相同的计算。我们提出了LayerRoute,一种轻量级适配器,学习在逐输入基础上选择性跳过Transformer块。LayerRoute为Qwen2.5-0.5B-Instruct中的每个24个Transformer块增加了:(1) 每层路由器(约897个参数,Linear(896,1)),通过直通估计器输出硬二进制门控,以及(2) LoRA适配器(秩为8,约1.08M参数)作用于Q/K/V/O注意力投影。主干权重保持冻结。在代理数据(Hermes、Glaive、GSM8K、Turing)上进行单次端到端训练,加上门控正则化项,迫使系统发现每个输入类型中哪些块是可跳过的。经过3,000步(在A100 40GB上6.4分钟)后,LayerRoute实现了12.91%的跳跃差异:工具调用跳过了15.25%的FLOPs,而规划步骤仅跳过了2.34%,仅使用了1.10M可训练参数(占494M主干的0.22%)。由于LoRA适配,质量相比基础模型有所提升,工具调用的困惑度变化为-1.29,规划步骤为-1.30。
查看原文
查看缓存全文

缓存时间: 2026/06/08 15:16

论文页面 - LayerRoute:基于LoRA微调的输入条件化自适应层跳跃,用于智能体语言模型

来源:https://huggingface.co/papers/2606.01838

摘要

LayerRoute 是一种轻量级适配器,可根据输入类型在推理过程中选择性地跳过 Transformer 块,通过门控路由和 LoRA 适配实现计算节省,同时保持或提升模型质量。

智能体语言模型系统会在两种结构上截然不同的步骤类型之间交替:结构化工具调用(short, deterministic, low perplexity)和开放规划/推理步骤(long, complex, high perplexity)。尽管存在这种异质性,当前推理系统仍为每个步骤分配相同的计算量。我们提出了 LayerRoute,这是一种轻量级适配器,学习在逐个输入的基础上选择性地跳过 Transformer 块。LayerRoute 为 Qwen2.5-0.5B-Instruct 中的 24 个 Transformer 块中的每一个增加了:(1)一个逐层路由器(约 897 个参数,Linear(896,1)),通过直通估计器输出硬二进制门控;(2)注意力投影 (Q/K/V/O) 上的 LoRA 适配器(秩为 8,约 108 万个参数)。主干权重保持冻结。在智能体数据(Hermes、Glaive、GSM8K、Turing)上进行一次端到端训练,并加入门控正则化项,迫使系统发现哪些块对于每种输入类型是可跳过的。经过 3000 步(在 A100 40GB 上耗时 6.4 分钟)后,LayerRoute 实现了 12.91% 的跳过差异:工具调用跳过了 15.25% 的 FLOPs,而规划步骤仅跳过 2.34%,仅使用了 110 万个可训练参数(占 4.94 亿主干参数的 0.22%)。由于 LoRA 适配,模型质量相比基础模型有所提升,工具调用的困惑度增量为 -1.29,规划步的困惑度增量为 -1.30。

查看 arXiv 页面 (https://arxiv.org/abs/2606.01838)
查看 PDF (https://arxiv.org/pdf/2606.01838)
项目页面 (https://arxiv.org/abs/2606.01838)
GitHub0 (https://github.com/hackie123/layerroute)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.01838)

在你的智能体中获取这篇论文:

hf papers read 2606.01838

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.01838 以从此页面链接它。

引用此论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.01838 以从此页面链接它。

引用此论文的 Space0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.01838 以从此页面链接它。

包含此论文的收藏0

没有收藏包含此论文

请将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接它。

相似文章

Aletheia:基于梯度引导的层选择方法,实现跨架构的高效LoRA微调

arXiv cs.CL

Aletheia 提出了一种基于梯度引导的层选择方法,用于高效的 LoRA 微调。该方法通过轻量级梯度探针识别与任务相关的 Transformer 层,并选择性地应用适配器,在 14 个模型上实现了 15%-28% 的训练加速,同时保持了在 MMLU、GSM8K 和 HumanEval 基准测试中的下游性能。

Hybrid-LoRA:桥接全微调与低秩适应的后训练方法

arXiv cs.LG

Hybrid-LoRA提出了一种框架,选择性地对一小部分模块进行全微调,同时对其他模块使用LoRA,在显著降低计算成本的同时实现了接近全微调的性能。实验表明,与现有参数高效基线方法相比,性能提升高达5.65%。

基于可学习秩的参数高效微调

arXiv cs.CL

来自阿德莱德大学的研究人员提出了 LR-LoRA(可学习秩 LoRA),这是一种参数高效微调方法,在训练过程中动态学习每个 Transformer 层的适配器秩,而非使用固定的全局秩。LR-LoRA 在语言理解和常识推理基准测试上达到了最先进的性能,超越了固定秩 LoRA 基线。