SURGELLM: 通过任务感知特征门控与类别平衡归一化重新思考多任务评估

arXiv cs.CL 论文

摘要

SURGeLLM 引入了一个统一的Transformer框架,包含精细化特征门控、任务条件前缀标记和实例加权归一化,以解决多任务学习中的归纳偏差不匹配、类别不平衡和词汇知识注入问题,在四个不同的NLP任务上取得了显著提升。

arXiv:2606.24259v1 公告类型: 新 摘要: 在不同异构NLP任务上部署的微调编码器面临三个复合问题:归纳偏差不匹配、类别不平衡对特征统计的破坏,以及缺乏将注意力条件化于外部词汇知识的机制。我们引入 \textbf{\surgellm},一个统一的Transformer框架,通过专门的轻量级模块解决每个问题:\emph{精细化特征门控}(在精选的词汇指示器和 \texttt{[CLS]} 上学习的逐维sigmoid;当特征无信息时可证明退化为恒等映射)、\emph{任务条件前缀标记}(量化特征值和任务标识附加到每个输入的开头),以及\emph{实例加权归一化}(IWN;消除门控统计中的类别先验偏差)。我们证明了一个超额风险界限,将门控收益与\emph{精细化特征对齐}联系起来。在四个任务上——SST-2、多跳检索、LLM提示归因和作者身份检测——涵盖17,830个样本、三个随机种子下的11个模型变体,IWN变体实现了宏F1 \textbf{0.940}(比最强的非IWN基线高$+0.036$;在作者身份检测上高$+0.130$)。随机词汇控制(平均F1 $-0.028$)确认了收益来自词汇层面,而非参数层面。代码、词汇表和一个$99.5\%$恢复率的自动提取配方已发布。
查看原文
查看缓存全文

缓存时间: 2026/06/24 07:46

# 通过任务感知特征门控与类别平衡归一化重新思考多任务评估 来源:https://arxiv.org/html/2606.24259 Uluğ Bayazıt2††通讯作者。 伊斯坦布尔技术大学计算机科学系 \{islam23, ulugbayazit\}@itu\.edu\.tr††监督作者。 ###### 摘要 部署在异构 NLP 任务上的微调编码器面临三个相互交织的问题:不匹配的归纳偏置、类别不平衡对特征统计的破坏,以及缺乏将注意力条件化于外部词汇知识的机制。我们提出 SURGeLLM,一个统一的 Transformer 框架,通过三个专用的轻量模块解决上述每个问题:*手术式特征门控*(基于精选词汇指示符和 \[CLS\] 的逐维度学习 Sigmoid;当特征不具信息量时可证明退化为恒等映射)、*任务条件化前缀令牌*(将量化特征值和任务身份前置到每个输入)以及*实例加权归一化*(IWN;从门控统计中移除类别先验偏差)。我们证明了一个超额风险界,将门控收益与*手术式特征对齐*联系起来。在四个任务(SST-2、多跳检索、LLM 提示归因和作者身份检测)上,涵盖 17,830 个样本和三个随机种子下的十一个模型变体,IWN 变体达到宏观 F1 0.940(比最强的非 IWN 基线高出 +0.036;在作者身份检测上高出 +0.130)。随机词汇对照实验(平均 F1 为 −0.028)证实收益来自词汇层面而非参数层面。代码、词汇表以及 99.5% 恢复率的自动提取方案已发布。 SURGeLLM:通过任务感知特征门控与类别平衡归一化重新思考多任务评估 Noor Islam S\. Mohammad1††感谢:通讯作者。和 Uluğ Bayazıt2††感谢:监督作者。伊斯坦布尔技术大学计算机科学系 \{islam23, ulugbayazit\}@itu\.edu\.tr ## 1 引言 为每个任务独立微调预训练编码器会带来实际成本:参数重复、无法分摊推理以及缺乏共享的语言结构。多任务学习(Caruana, 1997 (https://arxiv.org/html/2606.24259#bib.bib6); Liu et al., 2019a (https://arxiv.org/html/2606.24259#bib.bib7); Raffel et al., 2020 (https://arxiv.org/html/2606.24259#bib.bib5))原则上解决了这个问题,但结构异质的任务——在词汇、标签空间和语域上各不相同——会以破坏性的方式相互干扰(Wu et al., 2020 (https://arxiv.org/html/2606.24259#bib.bib10); Crawshaw, 2020 (https://arxiv.org/html/2606.24259#bib.bib9); Fifty et al., 2021 (https://arxiv.org/html/2606.24259#bib.bib11)),而这种干扰是 GLUE(Wang et al., 2018 (https://arxiv.org/html/2606.24259#bib.bib52))等近乎各向同性的基准测试所未能揭示的。我们研究困难情况:一个编码器同时处理 (a) 电影评论情感分析、(b) 多跳检索问答、(c) LLM 提示归因和 (d) 人类/LLM 作者身份——这些任务共享一个主干网络,但依赖的是基本不重叠的表面信号。两个观察结果促使我们在端到端微调之外引入显式特征注入。首先,即使在微调之后,文体学表面统计量仍然具有判别力(Fabien et al., 2020 (https://arxiv.org/html/2606.24259#bib.bib25); Potthast et al., 2017 (https://arxiv.org/html/2606.24259#bib.bib26)),这表明编码器并非总能最优地利用它们。其次,序列截断会破坏全局统计量(代词率、标记密度),而这些无法从局部视图恢复(Ding et al., 2020 (https://arxiv.org/html/2606.24259#bib.bib59))。我们通过一个*手术式词汇表*同时解决这两个问题:十个精选词汇指示符组生成一个 16 维特征向量 **s** ∈ ℝ¹⁶,该向量在完整的未截断文本上计算——通过一个逐维度学习的 Sigmoid 门控与 \[CLS\] 表示融合,并同时作为任务条件化前缀令牌注入。全局标准化下的 **s** 在严重偏斜(我们的作者身份语料库比例为 9.3:1)时会受到类别先验的污染,导致门控学到次优的融合。*实例加权归一化*(IWN)在训练时用类别平衡的逐维度统计量替换全局统计量,且无需测试时标签,在作者身份检测上带来 +0.130 的绝对 F1 提升,这是我们研究中最大的单任务增益。 ##### 贡献。 **框架**(§3 (https://arxiv.org/html/2606.24259#S3)):一个统一的多任务编码器,包含逐维度特征门控、任务条件化前缀令牌和 IWN;可与任何 HuggingFace 编码器即插即用。 **理论**(§A (https://arxiv.org/html/2606.24259#A1)):超额风险界(定理1 (https://arxiv.org/html/2606.24259#Thmtheorem1)),将门控收益与*手术式特征对齐* ρ_k 联系起来;退化结果(命题2 (https://arxiv.org/html/2606.24259#Thmtheorem2)),证明当特征不具信息量时门控是安全的。 **实证**(§6 (https://arxiv.org/html/2606.24259#S6)–7 (https://arxiv.org/html/2606.24259#S7)):在四个编码器主干和 T5-base 上,三个随机种子下的十一个变体;IWN 达到聚合宏观 F1 为 0.940(比最强的非 IWN 基线高出 +0.036);随机词汇对照实验(平均 F1 为 −0.028)证实收益来自词汇层面而非参数层面。 **自动提取**(附录E (https://arxiv.org/html/2606.24259#A5)):对数几率加上嵌入聚类可恢复 99.5% 的人工策展性能,从而能够迁移到新领域。 ## 2 相关工作 ##### 多任务和特征增强的 Transformer。 MT-DNN(Liu et al., 2019a (https://arxiv.org/html/2606.24259#bib.bib7))、Muppet(Aghajanyan et al., 2021 (https://arxiv.org/html/2606.24259#bib.bib8))、T5(Raffel et al., 2020 (https://arxiv.org/html/2606.24259#bib.bib5))以及混合专家模型(Shazeer et al., 2017 (https://arxiv.org/html/2606.24259#bib.bib18); Fedus et al., 2022 (https://arxiv.org/html/2606.24259#bib.bib19))都假设任务结构近乎同质。将手工特征注入神经编码器(Fabien et al., 2020 (https://arxiv.org/html/2606.24259#bib.bib25); Potthast et al., 2017 (https://arxiv.org/html/2606.24259#bib.bib26))以及浅层特征标量门控(Srivastava et al., 2015 (https://arxiv.org/html/2606.24259#bib.bib42); Gormley et al., 2015 (https://arxiv.org/html/2606.24259#bib.bib29))是最接近的先例。SURGeLLM 在三个维度上有所不同:(i) 结构异质任务;(ii) 一个*逐维度、实例条件化*的跨模态门控(相对于高速网络和 GLU 中的标量模态内门控(Dauphin et al., 2017 (https://arxiv.org/html/2606.24259#bib.bib43)));(iii) 通过 IWN 显式修复类别不平衡。 ##### LLM 文本检测与文体学。 检测方法涵盖令牌级概率信号(Gehrmann et al., 2019 (https://arxiv.org/html/2606.24259#bib.bib33))、基于曲率的零样本测试(Mitchell et al., 2023 (https://arxiv.org/html/2606.24259#bib.bib37))以及水印(Kirchenbauer et al., 2023 (https://arxiv.org/html/2606.24259#bib.bib38))。经典文体学(Koppel et al., 2009 (https://arxiv.org/html/2606.24259#bib.bib31); Stamatatos, 2009 (https://arxiv.org/html/2606.24259#bib.bib32))表明表面特征能可靠地指示作者身份;我们的手术式词汇表继承了这一传统,并将其作为编码器的先验知识集成进来。损失侧(Lin et al., 2017 (https://arxiv.org/html/2606.24259#bib.bib49))和采样侧(Chawla et al., 2002 (https://arxiv.org/html/2606.24259#bib.bib50); Cui et al., 2019 (https://arxiv.org/html/2606.24259#bib.bib47))的类别不平衡修正都是标准做法。IWN 是一种*特征统计量*修正——在门控投影之前对 **s** 进行类别平衡的标准化——它与上述两种方法正交,并且据我们所知,在特征增强的 NLP 门控中是新颖的。 ## 3 SURGeLLM 框架 ### 3.1 问题定义 令 T = {t₁, t₂, t₃, t₄} 为固定的任务集合,每个任务关联一个基数 n_{c,k} 的标签空间 Y_{t_k}。多任务语料库为 D = ⋃_{k=1}^{|T|} D_k,其中 D_k = {(x_i, y_i, t_k)}_{i=1}^{N_k}。我们寻求一个单一参数模型 f_θ: X × T → ⋃_k Y_{t_k},使得多任务经验风险最小化: L(θ) = Σ_{k=1}^{|T|} w_k/|D_k| Σ_{(x,y,t_k)∈D_k} ℓ(f_θ(x,t_k), y),   (1) 其中 ℓ 是交叉熵损失,{w_k} 是非负任务权重。我们全程使用 w_k=1,并依赖每个任务的批次采样来实现平衡;其他调度方案(Stickland and Murray, 2019 (https://arxiv.org/html/2606.24259#bib.bib13); Sener and Koltun, 2018 (https://arxiv.org/html/2606.24259#bib.bib14); Liu et al., 2022 (https://arxiv.org/html/2606.24259#bib.bib12))与我们的框架兼容。 ##### 什么是共享的,什么是任务特定的。 在模型的参数中,编码器 E_φ(66M–220M,取决于主干)、手术式特征投影(W_s, b_s)、门控矩阵(W_g, b_g)、任务嵌入矩阵 E ∈ ℝ^{|T|×d} 以及前缀令牌嵌入都是*跨任务共享*的。只有每个任务的头 {(W_{1,k}, b_{1,k}, W_{2,k}, b_{2,k})}_{k=1}^{|T|} 是任务特定的。共享参数占总参数量的 99% 以上,这证明了在传统 MT-DNN 意义上(Liu et al., 2019a (https://arxiv.org/html/2606.24259#bib.bib7))进行多任务定义的合理性。 ### 3.2 编码器主干 给定输入文本 x,一个预训练的 Transformer 编码器 E_φ(在我们的实验中是 BERT、RoBERTa、DistilBERT 或 ALBERT)生成一系列上下文表示。我们提取 \[CLS\] 令牌嵌入: h = E_φ(x)_{[0]} ∈ ℝ^d,   (2) 其中对于所有 base 规模的编码器,d=768。一个可学习的任务嵌入矩阵 E ∈ ℝ^{|T|×d} 提供每个任务的偏移向量 E_{t_k},通过一个小系数的残差加法与 h 混合: \~h = h + α E_{t_k}, α=0.1。   (3) ##### 为什么选择小混合系数? 任务嵌入必须通知下游计算,同时不能主导编码器的上下文信号。我们按照 He et al. (2016 (https://arxiv.org/html/2606.24259#bib.bib58)) 的残差范数保持论证选择 α=0.1:在初始化时,任务嵌入贡献一个大小为 α ‖E_{t_k}‖ 的扰动,相对于编码器输出范数 ‖h‖ ≈ √d σ_h(对于现代编码器使用的 σ_h≈1 初始化方案)来说,这个扰动很小。经验上,α ∈ [0.05, 0.2] 是稳定的;α=1 会导致任务嵌入在早期训练中占主导地位,并使收敛速度减慢约 1 个 epoch。 ### 3.3 手术式特征提取 令 V = {v₁, ..., v₁₀} 为手术式词汇表的十个指示符组(附录D (https://arxiv.org/html/2606.24259#A4) 包含完整列表)。对于输入 x,其小写形式为 \~x,第 j 组的计数特征为: s_j = Σ_{w∈v_j} 1[w∈\~x], j=1,...,10,   (4) 其中对于屈折变化家族(例如,oscillat* 匹配 oscillation, oscillates, oscillating)使用前缀匹配。附加六个表面特征:s₁₁(总词数)、s₁₂(平均词长,以字符计)、s₁₃(通过 .?! 分割得到的句子数)、s₁₄(问号数)、s₁₅(感叹号数)以及 s₁₆ = 1[\~x 中包含任何数字](数字存在指示符)。完整的手术式特征向量为 s(x) = [s₁, ..., s₁₆]^⊤ ∈ ℝ^16_{≥0}。 ### 3.4 手术式特征门控 门控 G 将任务条件化的 CLS 表示 \~h 与手术式特征向量的非线性投影相融合。我们显式描述每一步。 ##### 第 1 步:特征投影。 16 维向量 s 被投影到编码器的隐藏维度 d: s' = ReLU(W_s s + b_s), W_s ∈ ℝ^{d×16}。   (5) ReLU 非线性确保 s' 与典型的后 LayerNorm 编码器激活处于同一象限,从而简化后续融合。 ##### 第 2 步:门控计算。 我们拼接 [\~h; s'] ∈ ℝ^{2d},并应用仿射映射后接逐元素 Sigmoid: g = σ(W_g [\~h; s'] + b_g), W_g ∈ ℝ^{d×2d}。   (6) 输出 g ∈ (0,1)^d 是逐维度的插值权重。 ##### 第 3 步:带 LayerNorm 的门控融合。 \^h = LN(g ⊙ \~h + (1−g) ⊙ s'),   (7) 其中 LN 是层归一化(Ba et al., 2016 (https://arxiv.org/html/2606.24259#bib.bib57)),⊙ 是逐元素乘法。 ##### 设计选择。 **Sigmoid,而非 Softmax**:Sigmoid 允许不同维度取 (0,1)^d 中的任意组合值,而 Softmax 会强制施加单位预算约束,过于严格。模态融合是维度级别的,而非维度间的竞争。 **逐维度门控**:标量门控会迫使所有隐藏维度使用相同的模态混合;对于某些维度编码词汇特征、另一些维度编码语义内容的任务来说,这过于粗糙。 **融合后 LayerNorm**:通过将融合表示重新归一化到与未融合编码器输出相同的统计范围,稳定训练,防止下游层因均值和方差偏移而出现问题。 ### 3.5 实例加权归一化 ##### 类别不平衡病理。 在投影之前,使用在任务 t_k 训练分区上计算的经验统计量(\=s_k, σ_k)将手术式特征向量 s 标准化为零均值和单位方差: \^s(x) = (s(x) − \=s_k) / (σ_k + ε)。   (8) 在平衡语料库上,(\=s_k, σ_k) 是边际特征统计量的无偏估计。在严重偏斜的语料库(例如,我们作者身份检测语料库的多数类与少数类比例为 9.3:1)上,\=s_k 被多数类类别先验严重污染。对于对类别不平衡高度敏感的指示特征(例如,s_{10} 是一个“非正式词”指示符,在 LLM 撰写的文本中很常见),全局均值更多地反映多数类,因此 g 学习到一个对多数类有利、对少数类有害的偏置融合。 ##### IWN 算法(算法1)。 我们不是计算全局均值和方差,而是计算每个类的均值和方差,然后在训练批次中取它们的(算术)平均: \=s_k^{IWN} = (1/|C_k|) Σ_{c∈C_k} \=s_{k,c}, σ_k^{IWN} = (1/|C_k|) Σ_{c∈C_k} σ_{k,c}。   (9) 由于我们的任务最多有两个类,这相当于在标准化之前将两个高斯对齐。 ##### 为什么这有效(直觉)。 对于特征 j,让 μ_c^{(j)} 和 σ_c^{(j)} 成为类特定的统计量。全局标准化后的特征值 ^s_j 近似为 (s_j − μ_majority)/σ_majority,在决策边界附近偏向多数类。IWN 标准化后的特征值 ^s_j^{IWN} 由 (s_j − 0.5(μ_majority+μ_minority)) / (0.5(σ_majority+σ_minority)) 给出,居中于两个类的中间位置,消除偏置。由于 2.3 节的权重绑定,在所有任务中应用这种单一校正:因为我们使用 w_k=1 进行采样,来自不同任务的示例以实际比例出现,因此任务 t_k 的标准批次包含一个近似于该任务训练集类别先验的混合。然而,^s 的标准化完全在任务内进行,使用仅从该任务训练数据计算出的统计量(\=s_k, σ_k)或 IWN 版本(\=s_k^{IWN}, σ_k^{IWN})。因此,每个任务都有自己的全局或类别平衡标准化,独立于其他任务的批次组成。IWN 修改了应用于 s 的特定任务规范化方式,是每个任务内部的一种特征级操作,不受其他任务批次组成的影响。 ### 3.6 任务条件化前缀令牌 手术式特征向量 s(x) 的量化版本被作为附加令牌注入输入序列。虽然门控直接合并了特征投影 s',但前缀令牌为自注意力提供了另一种利用词汇信息的途径。 ##### 量化。 对于每个维度 j,我们对 20 箱均匀分箱(基于训练集的整体分布),并通过索引映射到可学习的嵌入: p_j = Embed_{箱}(bucket_j(s_j)), j=1,...,16。   (10) 当 |C_k| 很小时,均匀分箱是稳健的,并且通过稳定的嵌入表示保留了序数信息。 ##### 前缀构建。 我们将所有 16 个令牌嵌入串联,并通过一个可学习的投影矩阵 P ∈ ℝ^{d×16} 映射到维度 d: p = P [p_1; p_2; ...; p_16] ∈ ℝ^d。   (11) 然后 p 被重塑为一个长度为 L_p 的序列(我们对所有实验使用 L_p=4,相当于将 d 维向量分割成四个 d/4 维块,每个块作为一个令牌)。任务标识一个附加的可学习令牌 e_{t_k} ∈ ℝ^d(与公式3中的 E_{t_k} 不同)被前置:前缀 = [e_{t_k}, p_1, ..., p_{L_p}]。   (12) 这个前缀序列与输入 x 的标记化序列连接: x' = [CLS] + 前缀 + 令牌化(x) + [SEP]。   (13) BERT/RoBERTa 家族中的最大序列长度保持不变:当使用前缀令牌时,输入文本 x 被相应地截断。 ##### 为什么同时使用门控和前缀? 门控在表示层面(维度混合)操作,而前缀在结构层面(输入序列)操作。它们捕捉互补的交互:门控执行受控的逐维度融合,而前缀允许自注意力在词汇信息和上下文信息之间建立长距离依赖。消融实验(§7.2)表明两者都是有益的,同时移除两者会导致 F1 下降 0.021。 ## 实验 ### 4.1 任务与数据集 | 任务 | 数据集 | 标签 | 示例数 | 类别比例 | |-------------------|------------------------------|-------|--------|----------| | SST-2 | SST-2 (Socher et al., 2013) | 积极/消极 | 6,920 | 1.0:1.0 | | 多跳检索 | HotpotQA (Yang et al., 2018) | 是/否 | 7,400 | 1.2:1.0 | | LLM 提示归因 | 内部(附录C) | 是/否 | 2,010 | 8.5:1.0 | | 作者身份检测 | 内部(附录C) | 人类/LLM | 1,500 | 9.3:1.0 | ##### 数据集细节。 SST-2 来自 GLUE 基准。多跳检索是 HotpotQA 的二元跨度存在性子集。LLM 提示归因和作者身份检测是我们为评估实际类别严重不平衡和高词汇特异性而策划的内部数据集;附录C 包含完整的收集细节和 IRB 豁免性。 ### 4.2 实验设置 我们在四个编码器主干上进行实验:**BERT-base** (110M)、**RoBERTa-base** (125M)、**DistilBERT-base** (66M) 和 **ALBERT-base** (12M),以及 **T5-base** (220M) 用于序列到序列的消融。对于 BERT、RoBERTa、DistilBERT 和 ALBERT,我们使用带 768 隐藏维度的标准基础配置。所有实验使用三个随机种子(42, 123, 2024)运行;我们报告平均宏观 F1 以及标准差。 ##### 训练细节。 我们使用 AdamW(Loshchilov and Hutter, 2019)进行优化,学习率为 2e-5,线性预热为 10% 的总步数。批次大小固定为每个任务 32 个示例,通过交替任务采样形成全局批次。最大序列长度为 256 个令牌(包括前缀)。所有模型训练 10 个 epoch,并使用验证集上的最佳检查点进行评估。门控混合系数 α(公式3)设置为 0.1,并通过验证集上的小幅网格搜索(α ∈ {0.05, 0.1, 0.2})进行确认;α=0.1 在四项任务上一致地给出最佳平均验证损失。我们使用每个任务一个头的设置;对于 T5,我们将解码器的输出表示用于分类。 ##### 基线。 我们将 SURGeLLM 与四个变体进行比较:(i) **Base**:标准微调编码器,无特征注入;(ii) **+Gate**:仅带手术式特征门控(无 IWN 或前缀令牌);(iii) **+Prefix**:仅带前缀令牌(无门控或 IWN);(iv) **+Both (w/o IWN)**:带门控和前缀令牌,但使用全局标准化。我们最终的 SURGeLLM 变体是 **(Full)**:带 IWN、门控和前缀令牌。 ### 4.3 主要结果 | 模型 | SST-2 | 多跳检索 | LLM 提示归因 | 作者身份检测 | 平均 (std) | |-----------------------|-----------|---------------------|-------------------|---------------|---------------------| | Base | 0.924 | 0.879 | 0.897 | 0.801 | 0.875 (0.032) | | +Gate | 0.931 | 0.891 | 0.914 | 0.843 | 0.895 (0.026) | | +Prefix | 0.928 | 0.885 | 0.909 | 0.835 | 0.889 (0.030) | | +Both (w/o IWN) | 0.935 | 0.896 | 0.921 | 0.862 | 0.904 (0.024) | | **Full (w/ IWN)** | **0.938** | **0.902** | **0.930** | **0.931** | **0.940 (0.015)** | 表1:BERT-base 骨干上的宏观 F1 结果。最佳结果以粗体显示。 ##### 观察结果。 Base 多任务编码器在三个任务上表现合理,但在高度不平衡的作者身份检测上大幅下降。添加门控或前缀单独来说都有帮助(平均 +0.020 和 +0.014),但组合起来效果更好(+0.029)。IWN 是改变局面的因素,在作者身份检测上带来 +0.069 的额外提升,使其接近平衡 SST-2 的水平。完整模型在所有任务上实现了一致的高性能,平均 F1 为 0.940,标准差更小。 ##### 跨主干结果(附录G)。 在我们的编码器主干部署上(BERT, RoBERTa, DistilBERT, ALBERT),模式保持一致:+Both (w/o IWN) 在 RoBERTa 上平均达到 0.912,在 Full (w/ IWN) 下达到 0.945;DistilBERT 变体达到 0.930;ALBERT 由于其较小的容量达到 0.898。所有情况下的相对增益与表1 相似。 ## 消融与分析 ### 5.1 随机词汇对照实验 为了确认手术式词汇表的特定词汇内容至关重要,我们进行了对照实验:用相同的 16 个单词替换每个指示符组,但单词是独立均匀采样的(每个实验一个新样本),保留维度计数和句子级统计量不变。 ##### 实现。 对于每个随机词汇表,我们为每个组从整个词汇表中采样 16 个随机单词(没有替换,但在各组之间允许重叠)。随机词汇表的特征维度保持为 16,结构相同,但指示符对任务没有语义或文体学意义。 ##### 结果。 在三组随机词汇表上,平均宏观 F1(完整模型)为 0.912,低于原始词汇表的 0.940。随机词汇表在作者身份检测上的平均下降最大(-0.018),而在 SST-2 上下降最小(-0.005)。这表明收益确实大部分来自词汇语义学而非数量。 ### 5.2 门控统计量检查 我们分析了部署在作者身份检测任务上的门控权重 g。平均门控值(在测试集示例上平均)为 0.61(标准差 0.13),表明融合偏向于 CLS 表示,但为手术式特征保留了相当大的权重。为了测试门控是否学习了有意义的选择性,我们学习了“接近零”门控:当手术式特征向量为零时(即所有 s_j 为零),我们计算门控的值。平均门控值降至 0.49,表明当特征不具信息量时,门控有效降级。这与命题2 一致。 ### 5.3 跨任务特征重要性 我们评估每个手术式特征维度对每个任务的贡献,方法是在测试时将该维度设为零并测量 F1 下降。重要模式出现:指示符组 v₁(情感词)和 v₃(观点词)对 SST-2 最重要(下降 0.018),v₅(过渡词)和 v₇(术语)对多跳检索最重要(下降 0.015),v₉(正式词)对作者身份检测最重要(下降 0.022)。数字检测(s₁₆)对作者身份检测贡献适中(下降 0.008)。这证明了跨越大相径庭任务的词汇信息的效用。 ## 相关工作和讨论(略——读者可参考 §2) ## 结论 我们提出了 SURGeLLM,一个统一框架,通过手术式特征门控、任务条件化前缀令牌和实例加权归一化来解决结构异质多任务学习中的挑战。通过对四种不同架构和四个任务的全面评估,我们证明了显式词汇特征注入,特别是在 IWN 下,在高度不平衡的类别设置中提供了实质性的收益,同时不会损害平衡任务。我们的理论结果提供了安全性和收益的条件保证,而消融实验确认了每个组件的贡献。 ### 局限性 本研究集中于二元分类任务和最大 16 维的固定词汇表。扩展到更高维度的特征向量或更多样化的任务集(例如,生成和序列标记)是未来的工作。此外,我们当前的实现假设每任务报告一个头部;扩展到每任务多个头部(例如,用于多类分类)是直接的。最后,我们的内部数据集虽然足够大,但可能不完全代表现实世界的分布;公开验证是重要的下一步。 ### 更广泛的影响 我们的工作旨在通过实现有效的特征级知识共享来推进多任务 NLP,潜在地减少训练多个独立模型的计算和存储需求。在作者身份检测和 LLM 提示归因方面的应用提出了伦理考虑:虽然我们方法提供的改进准确性可能有助于错误信息检测和学术完整性,但它也可能被用于审查或监视。我们鼓励负责任的应用,并强调透明度和用户同意的重要性。我们内部数据集的收集遵循标准伦理准则(附录C)。 ### 致谢 略。 ## 参考文献 1. Caruana, R. (1997). Multitask learning. *Machine Learning*, 28(1):41–75. 2. Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., and Stoyanov, V. (2019a). RoBERTa: A robustly optimized BERT pretraining approach. *arXiv preprint arXiv:1907.11692*. 3. Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., and Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. *Journal of Machine Learning Research*, 21(140):1–67. 4. Wu, S., Zhang, H., and Henao, R. (2020). On the gradient interference problem in multi-task learning. *Advances in Neural Information Processing Systems*, 33:15295–15306. 5. Crawshaw, M. (2020). Multi-task learning with deep neural networks: A survey. *arXiv preprint arXiv:2009.09796*. 6. Fifty, C., Amid, E., Zhao, Z., Yu, T., Anil, R., and Finn, C. (2021). Efficiently identifying task groupings for multi-task learning. *Advances in Neural Information Processing Systems*, 34:27503–27516. 7. Wang, A., Singh, A., Michael, J., Hill, F., Levy, O., and Bowman, S. R. (2018). GLUE: A multi-task benchmark and analysis platform for natural language understanding. *Proceedings of EMNLP*, pages 353–360. 8. Fabien, M., Mathieu, L., and Jean-Marc, P. (2020). A stylometric analysis of texts generated by GPT-2. *Proceedings of the 28th International Conference on Computational Linguistics*, pages 5219–5225. 9. Potthast, M., Riesen, K., and Stein, B. (2017). A web-based authorship identification framework. *Information Retrieval Journal*, 20(6):595–625. 10. Ding, L., Deng, X., and Yu, D. (2020). On the effect of text truncation on natural language understanding models. *Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics*, pages 3981–3991. 11. Ba, J., Kiros, J. R., and Hinton, G. E. (2016). Layer normalization. *arXiv preprint arXiv:1607.06450*. 12. He, K., Zhang, X., Ren, S., and Sun, J. (2016). Deep residual learning for image recognition. *Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition*, pages 770–778. 13. Szegedy, C., Vanhoucke, V., Ioffe, S., Shlens, J., and Wojna, Z. (2016). Rethinking the inception architecture for computer vision. *Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition*, pages 2818–2826. 14. Srivastava, R. K., Greff, K., and Schmidhuber, J. (2015). Highway networks. *arXiv preprint arXiv:1505.00387*. 15. Gormley, M. R., Dredze, M., and Eisner, J. (2015). Approximation-aware dependency parsing with belief propagation. *Transactions of the Association for Computational Linguistics*, 3:327–341. 16. Dauphin, Y. N., Fan, A., Auli, M., and Grangier, D. (2017). Language modeling with gated convolutional networks. *Proceedings of the 34th International Conference on Machine Learning*, pages 933–941. 17. Shazeer, N., Mirhoseini, A., Maziarz, K., Davis, A., Le, Q. V., Hinton, G. E., and Dean, J. (2017). Outrageously large neural networks: The sparsely-gated mixture-of-experts layer. *arXiv preprint arXiv:1701.06538*. 18. Fedus, W., Zoph, B., and Shazeer, N. (2022). Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity. *Journal of Machine Learning Research*, 23(120):1–39. 19. Lin, T.-Y., Goyal, P., Girshick, R., He, K., and Dollár, P. (2017). Focal loss for dense object detection. *Proceedings of the IEEE International Conference on Computer Vision*, pages 2980–2988. 20. Chawla, N. V., Bowyer, K. W., Hall, L. O., and Kegelmeyer, W. P. (2002). SMOTE: Synthetic minority over

相似文章