Tapered Language Models

Hugging Face Daily Papers 论文

摘要

本文介绍了Tapered Language Models (TLMs),一种架构原则,将更多参数分配给早期层,更少分配给后期层,在不增加额外成本的情况下,持续改善多种架构的困惑度和下游性能。

现代语言模型,包括基于Transformer、循环和记忆的变体,共享一个共同框架:一叠相同的层,参数在深度方向上均匀分配。这是从原始Transformer继承下来的默认设置,此后基本未变,但越来越多的证据表明,各层对最终输出的贡献是非均匀的——后期层更多是对残差流进行微调而非变换。我们思考参数容量是否应反映这种不对称性。我们的受控实验表明,在固定预算下,将更多容量分配给早期层、更少给后期层,能相比于均匀宽度的基线提升困惑度,而反向分配则有害。基于这一结果,我们引入了Tapered Language Models (TLMs),一种架构原则,在固定总预算下,使承载参数的组件沿深度方向单调递减。MLP是这种实例化的天然场所:它们在现代所有LM家族中占据参数数量主导地位,并将宽度作为单一、清晰的变量暴露出来。在三种模型规模和四种架构(Transformer、Gated Attention、Hope-attention和Titans)上,通过平滑余弦调度对MLP宽度进行锥形化,能在不增加参数或计算成本的情况下,持续改善困惑度和下游基准性能,优于均匀基线。这些发现确立了深度感知的容量分配作为语言模型设计中简单且与架构无关的维度,是一个隐藏于眼前却免费的杠杆。
查看原文
查看缓存全文

缓存时间: 2026/06/23 05:40

论文页面 - 锥形语言模型(Tapered Language Models)

来源:https://huggingface.co/papers/2606.23670

摘要

锥形语言模型(Tapered Language Models)将更多参数分配给浅层,将更少参数分配给深层,在不增加总参数或计算成本的前提下提升性能。

现代语言模型,包括 transformer(https://huggingface.co/papers?q=transformer)、recurrent(https://huggingface.co/papers?q=recurrent)以及基于 memory 的变体(https://huggingface.co/papers?q=memory-based%20variants),共享一个通用架构:由一系列相同的层(https://huggingface.co/papers?q=identical%20layers)堆叠而成,其中参数沿深度方向均匀分配。这一设计继承自最初的 transformer(https://huggingface.co/papers?q=transformer)并沿用至今,然而越来越多的证据表明,各层对最终输出的贡献并不均匀——深层更多是精炼残差流而非变换它。我们问:参数容量是否应反映这种不对称性?我们的受控实验表明,在固定预算下,将更多容量分配给浅层、更少分配给深层,能够改善相对于均匀宽度基线的困惑度(perplexity)(https://huggingface.co/papers?q=perplexity),而反向分配则会损害性能。基于这一结果,我们提出了锥形语言模型(TLM),这是一种架构原则,其中承载参数的组件在固定总预算下沿深度方向单调锥形化。MLP(https://huggingface.co/papers?q=MLPs)是实现这一原则的自然选择:它们在所有现代语言模型家族中占据参数数量的主导地位,并且将宽度作为单一、清晰的变分轴。在三种模型规模和四种架构(Transformer(https://huggingface.co/papers?q=Transformer)、Gated Attention、Hope-attention 和 Titans)上,通过平滑余弦调度(cosine schedule)(https://huggingface.co/papers?q=cosine%20schedule)锥形化 MLP 宽度,能够一致地改善相对于均匀基线的困惑度(perplexity)(https://huggingface.co/papers?q=perplexity)和下游基准性能,且不增加任何参数或计算成本。这些发现确立了深度感知容量分配(depth-aware capacity allocation)(https://huggingface.co/papers?q=depth-aware%20capacity%20allocation)作为简单、架构无关(architecture-agnostic)(https://huggingface.co/papers?q=architecture-agnostic)的语言模型设计轴,一个隐于眼前的免费杠杆。

查看 arXiv 页面(https://arxiv.org/abs/2606.23670)查看 PDF(https://arxiv.org/pdf/2606.23670)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.23670)

在你的 agent 中获取此论文:

hf papers read 2606.23670

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型(0)

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.23670 以将其链接到此页面。

引用此论文的数据集(0)

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.23670 以将其链接到此页面。

引用此论文的 Spaces(0)

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.23670 以将其链接到此页面。

包含此论文的收藏集(0)

没有收藏集包含此论文

将本论文添加到一个收藏集(https://huggingface.co/new-collection)中以将其链接到此页面。

相似文章

基于历史文本的预训练语言模型

arXiv cs.CL

本文介绍了 TypewriterLM,一个参数规模为 7.24B 的语言模型,仅基于 1913 年之前的英文文本进行训练;同时介绍了 TypewriterCorpus(一个包含 540 亿 token 的清洗后历史语料库)以及指令微调数据集,以避免时间泄露和前瞻偏差。此外,还提出了一个基准测试套件 History-Event,用于评估时间定位能力和泄露情况。