layer-selection

#layer-selection

更深并不总是更好：通过置信层解码缓解对齐损失

Hugging Face Daily Papers ↗ · 2026-06-20 缓存

本文介绍了一种无需训练的编码策略——Confident Decoding，它利用熵引导搜索动态选择LLM中最可靠的中间层，从而缓解对齐损失，并在GPQA-Diamond、Omni-MATH等基准测试中提升了推理性能，且开销可忽略不计。

0 人收藏 0 人点赞

#layer-selection

FoRA: Fisher正交秩适应实现参数高效微调

arXiv cs.CL ↗ · 2026-05-29 缓存

FoRA提出了一种参数高效微调方法，通过Fisher评分选择任务相关层，并在Stiefel流形上训练LoRA下投影，在保持精度的同时减少参数。

0 人收藏 0 人点赞

#layer-selection

幻觉检测中的自动层选择

arXiv cs.AI ↗ · 2026-05-27 缓存

本文提出了用于大语言模型幻觉检测的自动层选择方法，并引入了固有维度首个有效峰值（FEPoID），这是一种无需训练的标准，能够一致地识别出最优中间层，优于现有启发式方法。

0 人收藏 0 人点赞

#layer-selection

挖掘深度中间表示的潜在能力

arXiv cs.LG ↗ · 2026-05-25 缓存

本文介绍了LOES（逐层最优嵌入选择）和GeoReg（几何正则化损失）方法，这些方法从深度模型中选择并融合与任务相关的中间层，以提升迁移学习性能，并在多种架构和模态上展现出一致的性能提升。

0 人收藏 0 人点赞

#layer-selection

多语言设计导向的调控：多语言稀疏自编码器与原则性层选择

arXiv cs.CL ↗ · 2026-05-25 缓存

本文介绍了一种基于原则的多语言语言调控方法，该方法使用在多语言数据上训练的稀疏自编码器（SAEs）以及一种基于多语言对齐与语言可分性交集的新型层选择规则，并在LLaMA-3.1-8B和Gemma-2-9B上针对机器翻译和跨语言摘要进行了评估。

0 人收藏 0 人点赞

#layer-selection

预测方向向量的有效性

arXiv cs.CL ↗ · 2026-04-20 缓存

本论文介绍了线性可访问性配置文件(LAP),一种使用logit lens的诊断方法,用于预测方向向量在模型各层的有效性,在5个模型的24个概念族上实现了ρ=+0.86到+0.91的相关性。该工作提供了一个系统框架来确定哪些层和概念适合用于方向干预,替代了临时性的试错方法。

0 人收藏 0 人点赞

#layer-selection

Aletheia：基于梯度引导的层选择方法，实现跨架构的高效LoRA微调

arXiv cs.CL ↗ · 2026-04-20 缓存

Aletheia 提出了一种基于梯度引导的层选择方法，用于高效的 LoRA 微调。该方法通过轻量级梯度探针识别与任务相关的 Transformer 层，并选择性地应用适配器，在 14 个模型上实现了 15%-28% 的训练加速，同时保持了在 MMLU、GSM8K 和 HumanEval 基准测试中的下游性能。

0 人收藏 0 人点赞

layer-selection

更深并不总是更好：通过置信层解码缓解对齐损失

FoRA: Fisher正交秩适应实现参数高效微调

幻觉检测中的自动层选择

挖掘深度中间表示的潜在能力

多语言设计导向的调控：多语言稀疏自编码器与原则性层选择

预测方向向量的有效性

Aletheia：基于梯度引导的层选择方法，实现跨架构的高效LoRA微调

提交意见反馈