基于Transformer的语言模型在垂直领域中的应用:架构、应用与批判性评估

arXiv cs.CL 论文

摘要

对基于Transformer的语言模型的全面综述,涵盖架构、在医疗、金融、法律等垂直领域的应用,以及对计算成本、对齐和数据来源等权衡因素的批判性评估。

arXiv:2606.24331v1 公告类型:新 摘要:基于Transformer的语言模型已成为自然语言处理的默认基础,新版本的发布速度使得从业者难以从层出不穷的增量公告中区分出持久的思想。本综述从两个层面展开。在机制层面,我们将主要Transformer系列组织成一个工作分类法,涵盖仅编码器、仅解码器、编码器-解码器、长上下文、基于排列和生成器-判别器变体。然后,我们将讨论扩展到2023年后的发展,这些发展在实践中改变了格局:指令微调、基于人类反馈的强化学习、直接偏好优化、专家混合扩展、检索增强以及来自OpenAI、Anthropic、Google、Meta、Mistral和DeepSeek的当前旗舰模型系列。在应用层面,我们调查了在医疗保健、金融、法律、教育、客户服务、创意写作和科学工作中的部署情况。基于此,我们将每个领域与使Transformer成为合适工具的具体能力联系起来。本文的贡献在于基于调查的批判性评估。我们在对部署决策至关重要的四个轴上比较架构,量化参数数量与能源成本之间的权衡。我们还讨论了对齐方法、数据来源和基准饱和如何改变“最先进”模型的定义。最后一部分列出了我们认为值得更多关注的研究问题。
查看原文
查看缓存全文

缓存时间: 2026/06/24 07:46

# 基于Transformer的语言模型在垂直领域中的应用:架构、应用与关键评估
来源:https://arxiv.org/html/2606.24331
###### 摘要

基于Transformer的语言模型已成为自然语言处理的默认底层技术,新模型的发布节奏之快,使得从业者难以从层出不穷的增量公告中分辨出具有持久价值的思路。本篇综述从两个层面展开工作。在机制层面,我们将主要的Transformer系列组织成一个实用的分类体系,涵盖仅编码器、仅解码器、编码器-解码器、长上下文、基于排列以及生成器-判别器变体。接着,我们将讨论扩展到2023年后改变实践格局的发展:指令微调、从人类反馈中进行强化学习、直接偏好优化、混合专家扩展、检索增强生成,以及来自OpenAI、Anthropic、Google、Meta、Mistral和DeepSeek的当前旗舰模型系列。在应用层面,我们调查了在医疗、金融、法律、教育、客户服务、创意写作和科学工作等七个垂直领域中的部署情况。基于此,我们将每个领域与使Transformer成为合适工具的特定能力联系起来。本文的贡献在于基于综述的关键评估。我们在关乎部署决策的四个维度上比较了不同架构,量化了参数量与能源成本之间的权衡。我们还讨论了对齐方法、数据来源和基准饱和如何改变了称一个模型为“最先进”的含义。最后一部分列出我们认为值得更多关注的研究问题。

###### 关键词:

大型语言模型,Transformer,BERT,GPT,综述

††期刊:预印本
\affiliation
\[a\]organization=SCOPE, VIT-AP University, city=Amaravathi, state=Andhra Pradesh, postcode=522241, country=India
\affiliation
\[b\]organization=SCORE, VIT, city=Katpadi, state=Tamil Nadu, postcode=632014, country=India

## 1 引言

大约在2017年,神经语言建模领域发生了一些变化。在那一年之前,任何想要构建翻译或摘要系统的人都会选择某种循环网络。Vaswani等人 (2017 (https://arxiv.org/html/2606.24331#bib.bib1)) 在那篇声称只需注意力的论文中认为,可以完全摒弃循环结构,同时在翻译任务上仍能达到与循环基线模型相当的性能。实际优势在于并行化。原本按顺序进行的训练运行突然变得仅受硬件速度的限制。两年后,大多数有监督的NLP排行榜都被Transformer变体所主导。五年后,同样的架构,在庞大的网络语料库上进行预训练,已经支撑着每天数亿人使用的产品。

自那以后,技术领域的压力发生了变化。发布日程变得应接不暇,新的旗舰模型几乎每月都会出现。所声称的能力往往超出了细心读者能够核实的范围。从业者在为特定场景(例如临床编码或合同审查)选择模型时,必须在几种选择中做出决定:通过API访问的少数大型专有系统、他们可以内部运行且日益增多的开源权重模型,以及在狭窄基准测试上仍然表现良好的较旧专用模型。文献并不总是能清晰地阐明这些权衡。

我们的目标有三个。首先,我们将Transformer架构组织成一个对部署决策有用的分类体系,而不是按发布日期列出模型。其次,我们调查了七个垂直领域中的应用,并将每个领域与该领域至关重要的架构特性联系起来。第三,我们对供应商公告中常常被轻描淡写的权衡进行了关键评估:计算和能源成本、对齐行为、数据来源,以及基准分数与实际性能之间的差距。

本综述扩展了先前的综述,如Zhao等人 (2023 (https://arxiv.org/html/2606.24331#bib.bib2))和Minaee等人 (2024 (https://arxiv.org/html/2606.24331#bib.bib3)),涵盖了2023年后的发展,包括指令微调和偏好优化模型 (Ouyang等人,2022 (https://arxiv.org/html/2606.24331#bib.bib4);Rafailov等人,2023 (https://arxiv.org/html/2606.24331#bib.bib5))、混合专家系统 (Fedus等人,2022 (https://arxiv.org/html/2606.24331#bib.bib6);Jiang等人,2024 (https://arxiv.org/html/2606.24331#bib.bib7))、检索增强生成 (Lewis等人,2020b (https://arxiv.org/html/2606.24331#bib.bib8)),以及来自OpenAI、Anthropic、Google DeepMind、Meta、Mistral AI和DeepSeek的当前一代旗舰模型。

论文的其余部分安排如下。第2节 (https://arxiv.org/html/2606.24331#S2)提供了理解后续讨论所需的技术背景。第3节 (https://arxiv.org/html/2606.24331#S3)介绍了架构分类体系。第4节 (https://arxiv.org/html/2606.24331#S4)涵盖了2023年后改变Transformer训练和实际服务方式的发展。第5节 (https://arxiv.org/html/2606.24331#S5)按领域调查了应用。第6节 (https://arxiv.org/html/2606.24331#S6)是关键评估。第7节 (https://arxiv.org/html/2606.24331#S7)列出了开放的研究问题。第8节 (https://arxiv.org/html/2606.24331#S8)进行总结。

## 2 背景

在Transformer出现之前,序列建模主要依赖于循环网络及其长短期记忆 (LSTM) 变体 (Hochreiter and Schmidhuber, 1997 (https://arxiv.org/html/2606.24331#bib.bib9))。循环模型逐个处理标记,这限制了训练的可并行化程度,并且难以捕获长段落中的依赖关系。尝试通过门控循环单元和对循环状态的注意力机制来解决这些问题的努力在特定任务上有所帮助,但并未改变基本的瓶颈。

Transformer移除了循环机制。一个Transformer层包含两个子层:一个自注意力块,它通过缩放点积注意力让每个标记可以关注输入中的每个其他标记;以及一个位置前馈网络。在每个子层周围应用残差连接和层归一化。由于注意力在所有标记位置上并行计算,因此可以在单次前向传播中处理整个序列。循环机制隐式编码的顺序信息,通过位置嵌入显式提供。

最初的Transformer使用编码器-解码器拆分用于机器翻译。后来的工作表明,每一半都可以独立使用。仅编码器模型,如BERT (Devlin等人,2019 (https://arxiv.org/html/2606.24331#bib.bib10)),生成适用于分类、标记和检索的双向表示。仅解码器模型,如GPT系列 (Radford等人,2018 (https://arxiv.org/html/2606.24331#bib.bib11), 2019 (https://arxiv.org/html/2606.24331#bib.bib12);Brown等人,2020 (https://arxiv.org/html/2606.24331#bib.bib13)),使用因果掩码进行训练,并逐个标记生成文本。编码器-解码器模型,如T5 (Raffel等人,2020 (https://arxiv.org/html/2606.24331#bib.bib14)),保留了两半,并将每个任务重新表述为一个文本到文本问题。

所有这些模型在高层面上共享相同的训练策略:在大规模未标注语料库上进行自监督预训练,然后在较小的任务特定数据集上进行有监督微调,或者更近期地,通过指令微调和在精心策划的演示及比较数据上进行偏好优化。过去七年间,预训练的规模大约增长了四个数量级,从拥有3.4亿参数的BERT-Large到公开讨论的拥有超过一万亿参数的系统 (Kaplan等人,2020 (https://arxiv.org/html/2606.24331#bib.bib15);Hoffmann等人,2022 (https://arxiv.org/html/2606.24331#bib.bib16))。

## 3 Transformer架构的实用分类体系

文献通常按发布日期或模型大小对基于Transformer的模型进行分组。对于选择模型的人来说,这两种方式都不是好的指导。我们根据决定模型擅长何种任务的结构特性来组织主要家族。表1 (https://arxiv.org/html/2606.24331#S3.T1) 总结了该分类体系;本节的其余部分将对此进行解释。

表1:基于Transformer的语言模型的实用分类体系。### 3.1 仅编码器模型

BERT (Devlin等人,2019 (https://arxiv.org/html/2606.24331#bib.bib10)) 是第一个广泛使用的仅编码器模型。它堆叠Transformer编码器块,并使用两个目标进行预训练。在掩码语言建模 (MLM) 中,一小部分输入标记(通常为15%)被替换为`[MASK]`标记,模型被训练根据周围上下文预测原始标记。在下一句预测 (NSP) 中,模型被给予两个片段,并被询问第二个片段是否紧跟在第一个片段之后。BERT-base配置使用12层、每层12个注意力头、隐藏层大小768,共1.1亿个参数;BERT-large将这些扩展到24层和3.4亿个参数。

RoBERTa (Liu等人,2019 (https://arxiv.org/html/2606.24331#bib.bib17)) 保留了架构但改变了训练。作者移除了NSP,在大约十倍于原先的数据上训练更长时间,使用更大的批次和动态掩码,并表明精心调整的BERT策略可以缩小与更新模型之间的差距。自那时起已被多次复现的经验是,架构创新常常与训练数据和训练预算相混淆。

DeBERTa (He等人,2021 (https://arxiv.org/html/2606.24331#bib.bib18)) 增加了解耦注意力,它将内容和位置信息在注意力计算中分离,并在GLUE和SuperGLUE上比RoBERTa提高了几个百分点。仅编码器模型仍然是输入有界且输出是标签、跨度或检索分数的任务的正确选择。它们比生成模型微调成本更低,并生成对语义搜索有用的嵌入。

### 3.2 仅解码器模型

GPT系列训练了一个带有因果注意力掩码的Transformer解码器,因此每个标记只能关注其自身和之前的标记。该模型被训练根据前缀预测下一个标记。GPT-2 (Radford等人,2019 (https://arxiv.org/html/2606.24331#bib.bib12)) 表明,这个简单的目标,在15亿参数下,可以产生出奇流畅的文本。GPT-3 (Brown等人,2020 (https://arxiv.org/html/2606.24331#bib.bib13)) 将相同的策略扩展到1750亿参数,并展示了*上下文学习*:在提示中给出几个工作示例,模型可以在没有任何梯度更新的情况下执行新任务。

一旦开发者看到上下文学习有效,模型的使用方式就开始全面转变。以前需要微调工作的任务现在可以通过提示工程来处理,这将专业化的成本从训练时间转移到了推理时间。它也暴露了一种新的失败模式。模型对提示的措辞、示例的顺序以及采样例程的随机种子很敏感,相同的提示在不同次运行中可能产生不同的输出。

2023年后的仅解码器模型,我们在第4节 (https://arxiv.org/html/2606.24331#S4) 中介绍,本质上是遵循GPT配方,但具有更好的数据、更好的对齐和更高的效率。大多数开源权重发布现在都属于这个家族。来自Meta的Llama 2和Llama 3系列 (Touvron等人,2023 (https://arxiv.org/html/2606.24331#bib.bib19);Grattafiori等人,2024 (https://arxiv.org/html/2606.24331#bib.bib20))、Mistral和Mixtral模型 (Jiang等人,2023 (https://arxiv.org/html/2606.24331#bib.bib21), 2024 (https://arxiv.org/html/2606.24331#bib.bib7)) 以及DeepSeek系列 (DeepSeek-AI, 2024 (https://arxiv.org/html/2606.24331#bib.bib22)) 共同涵盖了当前大部分开源权重部署。

### 3.3 编码器-解码器模型

T5 (Raffel等人,2020 (https://arxiv.org/html/2606.24331#bib.bib14)) 将每个NLP任务都视为文本到文本问题。翻译输入以“translate English to German:”为前缀;摘要输入以“summarize:”为前缀。该模型使用跨度损坏目标进行训练,其中连续的跨度被替换为哨兵标记,解码器必须生成缺失的内容。T5有从6000万到110亿参数等不同规模。BART (Lewis等人,2020a (https://arxiv.org/html/2606.24331#bib.bib23)) 使用类似的编码器-解码器安排,但采用噪声自编码目标,该目标结合了标记掩码、句子排列和文档旋转。

编码器-解码器模型在输出是输入的受限重写的任务上仍然具有竞争力:抽象摘要、翻译、语法纠正和模式驱动生成。它们允许编码器和解码器具有不同的深度和注意力模式,这在输入长而输出短时很有用。

### 3.4 长上下文变体

标准自注意力的计算复杂度随序列长度呈二次方增长,这使得在超过几千个标记的输入上进行训练变得代价高昂。几个架构系列试图解决这个问题。

Transformer-XL (Dai等人,2019 (https://arxiv.org/html/2606.24331#bib.bib24)) 重新引入了一种有限的递归形式,但这是段级别而非标记级别的。前一个段的隐藏状态被缓存并在处理下一个段时作为额外上下文重用,这使得信息可以跨越段边界流动,而无需强制模型在一次前向传播中处理所有内容。为了使缓存方案保持自洽,作者还将绝对位置编码替换为相对位置编码。有效上下文窗口更大,而训练成本与普通的固定长度Transformer相近。

Longformer (Beltagy等人,2020 (https://arxiv.org/html/2606.24331#bib.bib25)) 和BigBird (Zaheer等人,2020 (https://arxiv.org/html/2606.24331#bib.bib26)) 用稀疏模式替换了密集的注意力矩阵。每个标记关注一个局部窗口和少量全局标记。由此产生的注意力矩阵具有线性或接近线性的非零条目数,这使得处理数万个标记的序列变得可行。更近期的工作使用线性注意力近似 (Choromanski等人,2020 (https://arxiv.org/html/2606.24331#bib.bib27)) 以及膨胀或步进模式 (Ding等人,2023 (https://arxiv.org/html/2606.24331#bib.bib28))。FlashAttention (Dao等人,2022 (https://arxiv.org/html/2606.24331#bib.bib29)) 采取了一条不同的路线。它不改变注意力模式;它重新实现了精确的注意力计算,以避免在内存中物化完整的注意力矩阵,从而在不损失精度的情况下提供了大幅加速。

### 3.5 基于排列的模型和生成器-判别器模型

XLNet (Yang等人,2019 (https://arxiv.org/html/2606.24331#bib.bib30)) 试图结合BERT的双向上下文和GPT的自回归分解。它使用排列语言建模,其中模型从剩余标记的随机排列中预测每个标记。这避免了在训练时看到`[MASK]`标记但在推理时没有的人为痕迹。XLNet还引入了双流自注意力,它将内容流和查询流分开,以便可以在不看其自身的情况下预测一个标记。XLNet在发布时在大多数GLUE任务上优于BERT,但训练成本高,并且基本上已被更近期的模型所取代。

相似文章

Transformer之药

Reddit r/ArtificialInteligence

对Transformer架构在大型语言模型之外广泛影响的反思,包括对语言学、遗传学和因果建模的潜在影响,并将其意义与哈伯-博世法相提并论。

用于设备端故障检测的轻量级Transformer模型:资源受限部署的基准研究

arXiv cs.LG

一项基准研究,在三个公开数据集上对比了传统机器学习方法(随机森林、XGBoost、SVM、逻辑回归)与轻量级Transformer变体(DistilBERT、TinyBERT、MobileBERT)在设备端故障检测中的表现。传统机器学习在远小得多的资源占用下实现了有竞争力的准确率,而TinyBERT-4L是最便于部署的Transformer模型。

更好的语言模型及其影响

OpenAI Blog

OpenAI 推出 GPT-2,这是一个拥有 15 亿参数的基于 Transformer 的语言模型,在 40GB 的互联网文本上进行训练,在语言建模基准上达到了最先进的性能,并在阅读理解、翻译、问答和摘要生成等任务上展示了零样本学习能力。出于安全考虑,仅公开发布了较小的模型和技术论文,而非完整的训练模型。