随机分词法提高模型鲁棒性

arXiv cs.CL 论文

摘要

本论文证明了使用随机分词而非确定性标准分词来训练大型语言模型,可以显著提升模型对对抗攻击和随机扰动的鲁棒性。这种改进在预训练、微调和上下文学习阶段都有表现,且不会增加推理成本。

arXiv:2604.16037v1 公告类型:新投稿 摘要:大型语言模型(LLMs)的广泛应用引发了对其鲁棒性的关注。研究表明,使用确定性标准分词训练的模型在分词输入扰动面前存在脆弱性,容易受到对抗攻击。最近的研究表明随机分词可以产生对扰动不敏感的内部表征。本论文分析了随机分词如何影响模型对对抗攻击和随机扰动的鲁棒性。我们系统地研究了多个学习阶段(预训练、有监督微调和上下文学习)、不同数据集和模型架构下的效果。研究结果表明,使用均匀采样的随机分词进行预训练和微调可以提升模型对随机和对抗扰动的鲁棒性。在均匀采样的非标准分词上进行评估会导致用标准分词训练的 Llama-1b 模型准确率下降 29.8%。我们发现使用随机分词训练可在不增加推理成本的情况下保持准确率。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:29

# 分词中的随机性改进鲁棒性
来源:https://arxiv.org/abs/2604.16037
查看 PDF (https://arxiv.org/pdf/2604.16037)

> 摘要:大语言模型 (LLMs) 的广泛采用引发了人们对其鲁棒性的担忧。输入分词扰动中的漏洞表明,使用确定性规范分词训练的模型容易受到对抗攻击。最近的研究表明,随机分词可以产生对扰动不那么敏感的内部表示。本文分析了随机分词如何影响对对抗攻击和随机扰动的鲁棒性。我们系统地研究了一系列学习制度(预训练、有监督微调和上下文学习)、数据集和模型架构。我们表明,使用均匀采样的随机分词进行预训练和微调可以改进对随机和对抗扰动的鲁棒性。在均匀采样的非规范分词上评估会使规范训练的 Llama-1b 模型的准确率下降 29.8%。我们发现使用随机分词进行训练保持了准确率,同时不增加推理成本。

## 提交历史

来自:Sophie Steger [查看邮箱 (https://arxiv.org/show-email/c01e50c3/2604.16037)] **[v1]** 周五,2026 年 4 月 17 日 13:05:46 UTC (88 KB)

相似文章

大规模语言模型的概率归因

arXiv cs.CL

本文提出了一种与模型无关的基于概率的令牌归因度量,利用贝叶斯规则反转下一个令牌的对数概率,捕捉模型对令牌序列的内部表示,并通过熵分析提高可解释性。

揭秘数据受限语言模型预训练中的训练时数据增强

Hugging Face Daily Papers

本文研究了在数据受限、算力充足的场景下,为缓解自回归语言模型预训练中的过拟合而采用训练时数据增强技术,发现结合词元级噪声、序列排列和目标偏移预测可以改善验证损失。

大型语言模型中的涌现式重分词对称性:现象学与应用

arXiv cs.CL

本文发现,大型语言模型在重分词下部分表现出涌现式对称性——即在不改变字节的情况下,将提示的标准分词替换为另一种有效的分词方式。作者利用这一现象来探究组合理解能力,并提出将重分词作为一种新颖的推理时采样策略,能够恢复传统温度采样无法找到的解。