随机分词法提高模型鲁棒性
摘要
本论文证明了使用随机分词而非确定性标准分词来训练大型语言模型,可以显著提升模型对对抗攻击和随机扰动的鲁棒性。这种改进在预训练、微调和上下文学习阶段都有表现,且不会增加推理成本。
arXiv:2604.16037v1 公告类型:新投稿
摘要:大型语言模型(LLMs)的广泛应用引发了对其鲁棒性的关注。研究表明,使用确定性标准分词训练的模型在分词输入扰动面前存在脆弱性,容易受到对抗攻击。最近的研究表明随机分词可以产生对扰动不敏感的内部表征。本论文分析了随机分词如何影响模型对对抗攻击和随机扰动的鲁棒性。我们系统地研究了多个学习阶段(预训练、有监督微调和上下文学习)、不同数据集和模型架构下的效果。研究结果表明,使用均匀采样的随机分词进行预训练和微调可以提升模型对随机和对抗扰动的鲁棒性。在均匀采样的非标准分词上进行评估会导致用标准分词训练的 Llama-1b 模型准确率下降 29.8%。我们发现使用随机分词训练可在不增加推理成本的情况下保持准确率。
查看缓存全文
缓存时间: 2026/04/20 08:29
# 分词中的随机性改进鲁棒性 来源:https://arxiv.org/abs/2604.16037 查看 PDF (https://arxiv.org/pdf/2604.16037) > 摘要:大语言模型 (LLMs) 的广泛采用引发了人们对其鲁棒性的担忧。输入分词扰动中的漏洞表明,使用确定性规范分词训练的模型容易受到对抗攻击。最近的研究表明,随机分词可以产生对扰动不那么敏感的内部表示。本文分析了随机分词如何影响对对抗攻击和随机扰动的鲁棒性。我们系统地研究了一系列学习制度(预训练、有监督微调和上下文学习)、数据集和模型架构。我们表明,使用均匀采样的随机分词进行预训练和微调可以改进对随机和对抗扰动的鲁棒性。在均匀采样的非规范分词上评估会使规范训练的 Llama-1b 模型的准确率下降 29.8%。我们发现使用随机分词进行训练保持了准确率,同时不增加推理成本。 ## 提交历史 来自:Sophie Steger [查看邮箱 (https://arxiv.org/show-email/c01e50c3/2604.16037)] **[v1]** 周五,2026 年 4 月 17 日 13:05:46 UTC (88 KB)
相似文章
大规模语言模型的概率归因
本文提出了一种与模型无关的基于概率的令牌归因度量,利用贝叶斯规则反转下一个令牌的对数概率,捕捉模型对令牌序列的内部表示,并通过熵分析提高可解释性。
揭秘数据受限语言模型预训练中的训练时数据增强
本文研究了在数据受限、算力充足的场景下,为缓解自回归语言模型预训练中的过拟合而采用训练时数据增强技术,发现结合词元级噪声、序列排列和目标偏移预测可以改善验证损失。
基于熵-KL散度的令牌掩码:一种用于大型语言模型选择性微调的新方法
提出了 EKSFT,一种面向大型语言模型的选择性微调方法,该方法掩码具有高熵或与参考模型高KL散度的令牌,在注入任务知识的同时保留预训练分布。在数学推理基准上的实验表明,它优于标准SFT,并改进了后续的RL微调。
大型语言模型中的涌现式重分词对称性:现象学与应用
本文发现,大型语言模型在重分词下部分表现出涌现式对称性——即在不改变字节的情况下,将提示的标准分词替换为另一种有效的分词方式。作者利用这一现象来探究组合理解能力,并提出将重分词作为一种新颖的推理时采样策略,能够恢复传统温度采样无法找到的解。
通过字节级模拟解耦子词分词对语言模型训练的益处
本文通过进行受控的字节级预训练实验,研究了子词分词对LLM训练效率和性能的影响。它揭示了关键因素,如训练吞吐量以及将子词边界作为语言先验的整合。