随机分词法提高模型鲁棒性

arXiv cs.CL 2026/04/20 04:00 论文

摘要

本论文证明了使用随机分词而非确定性标准分词来训练大型语言模型，可以显著提升模型对对抗攻击和随机扰动的鲁棒性。这种改进在预训练、微调和上下文学习阶段都有表现，且不会增加推理成本。

arXiv:2604.16037v1 公告类型：新投稿摘要：大型语言模型（LLMs）的广泛应用引发了对其鲁棒性的关注。研究表明，使用确定性标准分词训练的模型在分词输入扰动面前存在脆弱性，容易受到对抗攻击。最近的研究表明随机分词可以产生对扰动不敏感的内部表征。本论文分析了随机分词如何影响模型对对抗攻击和随机扰动的鲁棒性。我们系统地研究了多个学习阶段（预训练、有监督微调和上下文学习）、不同数据集和模型架构下的效果。研究结果表明，使用均匀采样的随机分词进行预训练和微调可以提升模型对随机和对抗扰动的鲁棒性。在均匀采样的非标准分词上进行评估会导致用标准分词训练的 Llama-1b 模型准确率下降 29.8%。我们发现使用随机分词训练可在不增加推理成本的情况下保持准确率。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:29

# 分词中的随机性改进鲁棒性
来源：https://arxiv.org/abs/2604.16037
查看 PDF (https://arxiv.org/pdf/2604.16037)

> 摘要：大语言模型 (LLMs) 的广泛采用引发了人们对其鲁棒性的担忧。输入分词扰动中的漏洞表明，使用确定性规范分词训练的模型容易受到对抗攻击。最近的研究表明，随机分词可以产生对扰动不那么敏感的内部表示。本文分析了随机分词如何影响对对抗攻击和随机扰动的鲁棒性。我们系统地研究了一系列学习制度（预训练、有监督微调和上下文学习）、数据集和模型架构。我们表明，使用均匀采样的随机分词进行预训练和微调可以改进对随机和对抗扰动的鲁棒性。在均匀采样的非规范分词上评估会使规范训练的 Llama-1b 模型的准确率下降 29.8%。我们发现使用随机分词进行训练保持了准确率，同时不增加推理成本。

## 提交历史

来自：Sophie Steger [查看邮箱 (https://arxiv.org/show-email/c01e50c3/2604.16037)] **[v1]** 周五，2026 年 4 月 17 日 13:05:46 UTC (88 KB)

随机分词法提高模型鲁棒性

相似文章

大规模语言模型的概率归因

揭秘数据受限语言模型预训练中的训练时数据增强

基于熵-KL散度的令牌掩码：一种用于大型语言模型选择性微调的新方法

大型语言模型中的涌现式重分词对称性：现象学与应用

通过字节级模拟解耦子词分词对语言模型训练的益处

提交意见反馈