LayerRoute：基于输入条件的自适应层跳跃方法——通过LoRA微调实现代理语言模型优化

Hugging Face Daily Papers 2026/06/01 00:00 论文

摘要

LayerRoute是一种轻量级适配器，能够根据输入类型在推理过程中选择性跳过Transformer块，通过门控路由和LoRA自适应实现计算节省，同时保持或提升模型质量。在代理语言模型上，它实现了12.91%的跳跃差异。

代理语言模型系统交替进行两种结构不同的步骤：结构化工具调用（简短、确定、低困惑度）和开放式的规划/推理步骤（长、复杂、高困惑度）。尽管存在这种异质性，当前的推理系统对每个步骤应用相同的计算。我们提出了LayerRoute，一种轻量级适配器，学习在逐输入基础上选择性跳过Transformer块。LayerRoute为Qwen2.5-0.5B-Instruct中的每个24个Transformer块增加了：(1) 每层路由器（约897个参数，Linear(896,1)），通过直通估计器输出硬二进制门控，以及(2) LoRA适配器（秩为8，约1.08M参数）作用于Q/K/V/O注意力投影。主干权重保持冻结。在代理数据（Hermes、Glaive、GSM8K、Turing）上进行单次端到端训练，加上门控正则化项，迫使系统发现每个输入类型中哪些块是可跳过的。经过3,000步（在A100 40GB上6.4分钟）后，LayerRoute实现了12.91%的跳跃差异：工具调用跳过了15.25%的FLOPs，而规划步骤仅跳过了2.34%，仅使用了1.10M可训练参数（占494M主干的0.22%）。由于LoRA适配，质量相比基础模型有所提升，工具调用的困惑度变化为-1.29，规划步骤为-1.30。

查看原文

查看缓存全文

缓存时间: 2026/06/08 15:16

论文页面 - LayerRoute：基于LoRA微调的输入条件化自适应层跳跃，用于智能体语言模型

来源：https://huggingface.co/papers/2606.01838

摘要

LayerRoute 是一种轻量级适配器，可根据输入类型在推理过程中选择性地跳过 Transformer 块，通过门控路由和 LoRA 适配实现计算节省，同时保持或提升模型质量。

智能体语言模型系统会在两种结构上截然不同的步骤类型之间交替：结构化工具调用（short, deterministic, low perplexity）和开放规划/推理步骤（long, complex, high perplexity）。尽管存在这种异质性，当前推理系统仍为每个步骤分配相同的计算量。我们提出了 LayerRoute，这是一种轻量级适配器，学习在逐个输入的基础上选择性地跳过 Transformer 块。LayerRoute 为 Qwen2.5-0.5B-Instruct 中的 24 个 Transformer 块中的每一个增加了：（1）一个逐层路由器（约 897 个参数，Linear(896,1)），通过直通估计器输出硬二进制门控；（2）注意力投影 (Q/K/V/O) 上的 LoRA 适配器（秩为 8，约 108 万个参数）。主干权重保持冻结。在智能体数据（Hermes、Glaive、GSM8K、Turing）上进行一次端到端训练，并加入门控正则化项，迫使系统发现哪些块对于每种输入类型是可跳过的。经过 3000 步（在 A100 40GB 上耗时 6.4 分钟）后，LayerRoute 实现了 12.91% 的跳过差异：工具调用跳过了 15.25% 的 FLOPs，而规划步骤仅跳过 2.34%，仅使用了 110 万个可训练参数（占 4.94 亿主干参数的 0.22%）。由于 LoRA 适配，模型质量相比基础模型有所提升，工具调用的困惑度增量为 -1.29，规划步的困惑度增量为 -1.30。

查看 arXiv 页面 (https://arxiv.org/abs/2606.01838)
查看 PDF (https://arxiv.org/pdf/2606.01838)
项目页面 (https://arxiv.org/abs/2606.01838)
GitHub0 (https://github.com/hackie123/layerroute)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.01838)

在你的智能体中获取这篇论文：

hf papers read 2606.01838

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.01838 以从此页面链接它。

引用此论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.01838 以从此页面链接它。

引用此论文的 Space0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.01838 以从此页面链接它。

包含此论文的收藏0

没有收藏包含此论文

请将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接它。

LayerRoute：基于输入条件的自适应层跳跃方法——通过LoRA微调实现代理语言模型优化

论文页面 - LayerRoute：基于LoRA微调的输入条件化自适应层跳跃，用于智能体语言模型

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的收藏0

相似文章

超越 LoRA 与全参数微调：基于梯度引导优化器路由的大语言模型适配

Aletheia：基于梯度引导的层选择方法，实现跨架构的高效LoRA微调

Hybrid-LoRA：桥接全微调与低秩适应的后训练方法

基于可学习秩的参数高效微调

MoE$^2$-LoRA：当MoE模型遇上MoE风格的低秩适配

提交意见反馈