Tapered Language Models
摘要
本文介绍了Tapered Language Models (TLMs),一种架构原则,将更多参数分配给早期层,更少分配给后期层,在不增加额外成本的情况下,持续改善多种架构的困惑度和下游性能。
查看缓存全文
缓存时间: 2026/06/23 05:40
论文页面 - 锥形语言模型(Tapered Language Models)
来源:https://huggingface.co/papers/2606.23670
摘要
锥形语言模型(Tapered Language Models)将更多参数分配给浅层,将更少参数分配给深层,在不增加总参数或计算成本的前提下提升性能。
现代语言模型,包括 transformer(https://huggingface.co/papers?q=transformer)、recurrent(https://huggingface.co/papers?q=recurrent)以及基于 memory 的变体(https://huggingface.co/papers?q=memory-based%20variants),共享一个通用架构:由一系列相同的层(https://huggingface.co/papers?q=identical%20layers)堆叠而成,其中参数沿深度方向均匀分配。这一设计继承自最初的 transformer(https://huggingface.co/papers?q=transformer)并沿用至今,然而越来越多的证据表明,各层对最终输出的贡献并不均匀——深层更多是精炼残差流而非变换它。我们问:参数容量是否应反映这种不对称性?我们的受控实验表明,在固定预算下,将更多容量分配给浅层、更少分配给深层,能够改善相对于均匀宽度基线的困惑度(perplexity)(https://huggingface.co/papers?q=perplexity),而反向分配则会损害性能。基于这一结果,我们提出了锥形语言模型(TLM),这是一种架构原则,其中承载参数的组件在固定总预算下沿深度方向单调锥形化。MLP(https://huggingface.co/papers?q=MLPs)是实现这一原则的自然选择:它们在所有现代语言模型家族中占据参数数量的主导地位,并且将宽度作为单一、清晰的变分轴。在三种模型规模和四种架构(Transformer(https://huggingface.co/papers?q=Transformer)、Gated Attention、Hope-attention 和 Titans)上,通过平滑余弦调度(cosine schedule)(https://huggingface.co/papers?q=cosine%20schedule)锥形化 MLP 宽度,能够一致地改善相对于均匀基线的困惑度(perplexity)(https://huggingface.co/papers?q=perplexity)和下游基准性能,且不增加任何参数或计算成本。这些发现确立了深度感知容量分配(depth-aware capacity allocation)(https://huggingface.co/papers?q=depth-aware%20capacity%20allocation)作为简单、架构无关(architecture-agnostic)(https://huggingface.co/papers?q=architecture-agnostic)的语言模型设计轴,一个隐于眼前的免费杠杆。
查看 arXiv 页面(https://arxiv.org/abs/2606.23670)查看 PDF(https://arxiv.org/pdf/2606.23670)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.23670)
在你的 agent 中获取此论文:
hf papers read 2606.23670
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型(0)
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.23670 以将其链接到此页面。
引用此论文的数据集(0)
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.23670 以将其链接到此页面。
引用此论文的 Spaces(0)
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.23670 以将其链接到此页面。
包含此论文的收藏集(0)
没有收藏集包含此论文
将本论文添加到一个收藏集(https://huggingface.co/new-collection)中以将其链接到此页面。
相似文章
迈向无风险开源权重模型:分离LLM中的公共与私有能力
本文提出层级语言模型(TLMs),允许单套开源权重模型参数通过密钥控制支持多种能力级别。该方法能在保持公共模型行为并抵御提取的同时,选择性暴露私有能力。
内存高效型循环Transformer:循环语言模型中的计算与内存解耦
提出内存高效型循环Transformer(MELT),这是一种新型循环大语言模型架构,通过跨循环共享单一KV缓存,并结合插值过渡与注意力对齐蒸馏的分块训练方法,实现了推理深度与内存消耗的解耦。
Parallax: 参数化局部线性注意力机制用于语言建模
介绍Parallax,一种参数化局部线性注意力机制,结合硬件感知优化,提升LLM预训练效率和性能,在0.6B和1.7B规模实现帕累托改进。
基于历史文本的预训练语言模型
本文介绍了 TypewriterLM,一个参数规模为 7.24B 的语言模型,仅基于 1913 年之前的英文文本进行训练;同时介绍了 TypewriterCorpus(一个包含 540 亿 token 的清洗后历史语料库)以及指令微调数据集,以避免时间泄露和前瞻偏差。此外,还提出了一个基准测试套件 History-Event,用于评估时间定位能力和泄露情况。
@cjzafir: 垂直语言模型(VLMs)正在击败顶级大语言模型。这些参数量7B到15B的小型专精模型在各自的细分领域击败了SoTA模型……
作者演示了,通过使用开源模型和Codex编排进行高性价比微调,小型垂直语言模型(6B-15B)能够在细分基准上超越顶级大语言模型,仅用价值300美元的数据集就取得了成果。