情感分析的最佳预处理技术

arXiv cs.CL 论文

摘要

本文系统研究了Twitter数据情感分析预处理技术的最佳顺序,发现分词影响最大,拼写纠正影响最小,最佳顺序为:分词、清洗、词干提取、停用词去除。

arXiv:2606.24055v1 公告类型:新 摘要:Twitter数据集中的情感分析很重要,因为它能够监测公众对产品的意见,并分析政治和社会运动。一个关键步骤是预处理:对文本进行自动化处理以用于机器学习算法。预处理在减少噪声和提高效率方面起着关键作用。然而,很少有研究系统地探讨预处理技术的实施顺序。我们发现,在考虑顺序时,拼写纠正是影响最小的预处理技术,而分词是影响最大的。词干提取和停用词去除可以互换,并且最好在去除停用词时不移除否定词。应用预处理技术的最佳顺序是:分词、文本清洗、词干提取,然后去除停用词。我们的结果为从业者提供了一种系统的方法来部署预处理,以改进模型输出,而无需昂贵的预处理探索阶段。
查看原文
查看缓存全文

缓存时间: 2026/06/24 07:44

# 情感分析的最佳预处理技术
来源:https://arxiv.org/html/2606.24055
Melissa Humphries†Jonathan Tuke⋆Lewis Mitchell∗

⋄†⋆∗阿德莱德大学数学科学学院,南澳大利亚州5005,澳大利亚
⋄saranzaya\.magsarjav@adelaide\.edu\.au,†melissa\.humphries@adelaide\.edu\.au ⋆simon\.tuke@adelaide\.edu\.au,∗lewis\.mitchell@adelaide\.edu\.au

###### 摘要

Twitter数据集中的情感分析非常重要,因为它能够监测公众对产品的意见,并分析政治和社会运动。其中一个关键步骤是预处理:对文本进行自动化处理以用于机器学习算法。预处理在减少噪声和提高效率方面起着至关重要的作用。然而,很少有研究系统地考察预处理技术的执行顺序。我们发现,在考虑顺序的情况下,拼写纠正是最不重要的预处理技术,而分词是最重要的。词干提取和停用词移除可以互换,并且最好在不移除否定词的情况下移除停用词。应用预处理技术的最佳顺序是分词、文本清洗、词干提取,然后停用词移除。我们的结果为从业者提供了一种系统的方法来部署预处理,从而在不进行昂贵预处理探索阶段的情况下改善模型输出。

## 1 引言

自Pang and Lee (2008)(https://arxiv.org/html/2606.24055#bib.bib1)的开创性工作以来,意见挖掘和情感分析呈指数级增长。这种增长很大程度上归功于社交媒体可用性的提高,而社交媒体正是为分享观点、看法和经历而设计的。因此,社交媒体已成为情感分析的自然应用领域。

语言是基于上下文的,这使得分析极其困难。情感尤其微妙。诸如反讽、讽刺和否定(单个词就能完全改变情感极性)等因素都使分析复杂化。鉴于在线内容的非正式性,这些挑战在使用社交媒体时更加突出。社交媒体帖子经常包含URL、话题标签、多媒体、表情符号、拼写错误和俚语,这增加了问题的维度并使分类更加复杂。因此,在进行情感分析和分类之前,数据必须经过仔细考虑的预处理步骤,以减少不必要的噪声。

预处理步骤用于提高分类器的性能——无论是在情感分析还是其他领域——通过将文本转换为更易于管理和分析的形式。一些基本技术包括词干提取(将单词还原为其词根形式)、转换为小写以及移除停用词(例如代词和冠词)。

除了这些相对成熟的技术之外,针对在线内容的新预处理方法还包括表情符号转换 (Dandannavar et al., 2020) (https://arxiv.org/html/2606.24055#bib.bib2)、俚语转换 (Singh and Kumari, 2016) (https://arxiv.org/html/2606.24055#bib.bib3)、拼写纠正等。然而,很少有论文考虑预处理技术的应用方式或顺序。目前还没有系统分析测试过预处理技术的不同顺序。本文旨在通过系统地测试预处理技术的顺序并确定应实施哪些技术来填补这一空白。由此,我们能够为从业者提供关于实施顺序的建议。我们证明,分词是最具影响力的预处理技术,而拼写纠正是最不具影响力的。产生最佳输出的顺序是分词、清洗、词干提取,然后停用词移除。尽管在情感分析中使用神经网络模型(如BERT)有所增加,但本文将主要关注基于词语的情感分析。模型的简单性有助于我们专注于预处理技术的变化,而非模型之间的差异。

本文的其余部分组织如下。第2节(https://arxiv.org/html/2606.24055#S2)回顾了当前文献,第4节(https://arxiv.org/html/2606.24055#S4)及后续部分详细介绍了方法、结果和讨论。最后,结论和未来工作在第8节(https://arxiv.org/html/2606.24055#S8)中。

![参见图注](caption)
图1:情感分析分类流程图

## 2 相关工作

当前文献表明,预处理显著影响情感分类。然而,最佳方法似乎高度依赖于所使用的算法和研究的背景。据我们所知,尚未对技术顺序进行过系统研究。

Angiani et al. (2016)(https://arxiv.org/html/2606.24055#bib.bib4)使用多项朴素贝叶斯算法,基于SemEval 2015(Semantic Evaluation, 2015)(https://arxiv.org/html/2606.24055#bib.bib21)和2016(Semantic Evaluation, 2016)(https://arxiv.org/html/2606.24055#bib.bib22)数据,展示了几种预处理技术的单独效果,包括将所有否定词转换为“not”、将表情符号转换为简单描述、拼写纠正、俚语转换、词干提取和停用词移除。除了拼写纠正和俚语转换外,所有应用的预处理技术都改善了输出。当结合使用时,与不清洗相比,基本清洗方法显著改善了分类;因此,他们建议在进行任何其他预处理之前先应用这些技术。

在此基础上,Alam and Yao (2019)(https://arxiv.org/html/2606.24055#bib.bib23)也使用朴素贝叶斯来评估不同预处理步骤对输出的影响。他们将其与预处理对支持向量机和最大熵建模的影响进行了比较。基础比较使用了表情符号移除。作者还应用了二元语法。观察到的最大改进来自朴素贝叶斯。然而,Alam and Yao (2019)(https://arxiv.org/html/2606.24055#bib.bib23)表明,这并非对所有算法都成立,最大熵在准确性上没有显示出改进。

Jianqiang (2015)(https://arxiv.org/html/2606.24055#bib.bib24)使用两种特征模型和四种分类器(逻辑回归、朴素贝叶斯、支持向量机、随机森林)在五个Twitter数据集上展示了URL、停用词、重复字母、否定词、缩写词和数字移除对情感分类性能的影响。当重点测试单个预处理技术时,对于哪些技术最佳并没有达成共识,因为准确率的变化因数据集和分类器而异。文献中呈现了多种结果;然而,只有少数研究考察了多种预处理技术的同时应用,并且没有论文系统分析它们的顺序。本文旨在填补文献中的这一空白。

## 3 框架与算法

### 3.1 框架

一个标准的监督情感分类过程如图1(https://arxiv.org/html/2606.24055#S1.F1)所示。数据集收集后,将进行预处理。此步骤对数据进行清洗,并将其缩减为信息量最大的集合。此步骤也可以是特征选择过程的一部分。所选特征和不同的特征组合将影响分类器的性能。基于此集合,通常使用机器学习分类算法来训练模型。所用算法的概览见第3.2节(https://arxiv.org/html/2606.24055#S3.SS2)。然后分类器分配标签,并对预测进行评估。

### 3.2 预测算法

本文用于文本预处理的主要方法包括朴素贝叶斯、支持向量机、聚类和决策树。我们使用这些标准技术是为了简单起见。还有许多其他方法可用于分类和评估情感分析问题;请参阅Yue et al. (2019)(https://arxiv.org/html/2606.24055#bib.bib25)以及Giachanou and Crestani (2016)(https://arxiv.org/html/2606.24055#bib.bib26)。我们在此不提供预测算法的详尽综述,而是将读者引向以下资源。Giachanou and Crestani (2016)(https://arxiv.org/html/2606.24055#bib.bib26)提供了情感分析和意见挖掘及其在Twitter上应用的很好概述。它介绍了情感分析以及使用Twitter进行情感分析所面临的许多挑战,以及该领域的特征、应用和开放性问题。Yue et al. (2019)(https://arxiv.org/html/2606.24055#bib.bib25)则是对不同类型情感分析及其背景的更深入综述。它介绍了情感分析的细节以及情感分析和意见挖掘的不同类型。

### 3.3 预处理技术

数据预处理主要有四个步骤:清洗、集成、变换和归约。当专门应用于文本预处理时,主要组成部分是清洗、变换和归约。这些组成部分通过以各种方式对数据进行归一化、聚合或集成,有助于减少数据集量和噪声。我们关注的具体预处理技术包括:

- •拼写纠正:纠正拼写错误单词的过程。
- •词干提取:将单词还原为其词根形式。
- •分词:将文本或字符串分割成语段、句子、单词或字符,以便于分析。
- •停用词移除:移除对情感分析没有贡献的常见词,如代词和冠词。

最后考虑的预处理技术是清洗。本文中考虑的清洗过程包括:

- •表情符号转换:将表情符号/颜文字转换为文字描述。
- •转换为小写。
- •去缩写:使用已知缩写列表,将其转换为扩展形式。
- •符号移除:移除特殊字符和URL。
- •标点符号移除。

为了比较每种预处理技术对结果的影响,还考虑了不清洗的选项。这些技术的应用顺序保持一致,以降低计算成本,因为预处理技术是主要关注点。

## 4 数据集

表1:每个数据集中正面和负面推文的最终数量

使用了三个数据集:US Airline(来自 Everyone library, 2015)(https://arxiv.org/html/2606.24055#bib.bib20)、GOP Debate(来自 Everyone library, 2016)(https://arxiv.org/html/2606.24055#bib.bib19)以及SMILE项目 (Wang, Bo et al., 2016)(https://arxiv.org/html/2606.24055#bib.bib18)。所有数据集均由Twitter帖子组成,分析重点集中在短文本上。为了标准化数据集,移除了中性推文,高兴的情绪被转换为单一的正面值,负面情绪被转换为单一的负面值。这种预处理确保了采样和分析前数据集之间的一致性。

在标准化过程之后,应用了分层采样。理论上,大约有150万种可能的组合需要运行;因此,使用分层采样来提高时间效率。为了平衡准确性和效率,我们在不同数据集上测试了不同样本量,并随机选择了预处理技术的组合。数据以不同比例多次采样,以获得F1分数的置信区间。这个过程表明,合适的样本量约为原始数据集的35%。更大的样本量并没有显示出分类准确性的显著提高。每个数据集的最终推文数量如表1(https://arxiv.org/html/2606.24055#S4.T1)所示。

## 5 方法

表2:预处理技术的执行顺序。顺序由第一列中的编号和简写引用。总共考虑了15种不同的顺序。

| | 顺序 | 顺序缩写 |
|---|---|---|
|0|清洗-分词-拼写-停用词-词干|cl-to-sp-st-se|
|1|清洗-分词-拼写-词干-停用词|cl-to-sp-se-st|
|2|清洗-分词-停用词-拼写-词干|cl-to-st-sp-se|
|3|分词-清洗-拼写-停用词-词干|to-cl-sp-st-se|
|4|分词-清洗-拼写-词干-停用词|to-cl-sp-se-st|
|5|分词-清洗-停用词-拼写-词干|to-cl-st-sp-se|
|6|分词-拼写-清洗-停用词-词干|to-sp-cl-st-se|
|7|分词-拼写-清洗-词干-停用词|to-sp-cl-se-st|
|8|分词-拼写-停用词-清洗-词干|to-sp-st-cl-se|
|9|分词-拼写-停用词-词干-清洗|to-sp-st-se-cl|
|10|分词-拼写-词干-清洗-停用词|to-sp-se-cl-st|
|11|分词-拼写-词干-停用词-清洗|to-sp-se-st-cl|
|12|分词-停用词-清洗-拼写-词干|to-st-cl-sp-se|
|13|分词-停用词-拼写-清洗-词干|to-st-sp-cl-se|
|14|分词-停用词-拼写-词干-清洗|to-st-sp-se-cl|

还使用了不同的软件包来查看哪个预处理包表现最佳。每种预处理技术使用的包如下所列:

- •拼写纠正:spellchecker (Barrus, 2021)(https://arxiv.org/html/2606.24055#bib.bib13)、textblob (Loria, 2020)(https://arxiv.org/html/2606.24055#bib.bib8)、autocorrect (Sondej, 2021)(https://arxiv.org/html/2606.24055#bib.bib17)
- •词干提取:SnowballStemmer (Bird et al., 2009)(https://arxiv.org/html/2606.24055#bib.bib6)、WordNetLemmatizer (Loria, 2020)(https://arxiv.org/html/2606.24055#bib.bib8)、spaCy (Honnibal et al., 2020)(https://arxiv.org/html/2606.24055#bib.bib7)、textblob (Loria, 2020)(https://arxiv.org/html/2606.24055#bib.bib8)
- •分词:TweetTokenizer (Bird et al., 2009)(https://arxiv.org/html/2606.24055#bib.bib6)、spaCy (Honnibal et al., 2020)(https://arxiv.org/html/2606.24055#bib.bib7)、transformers AutoTokenizer (Face, 2021)(https://arxiv.org/html/2606.24055#bib.bib16)、空白分词
- •停用词移除:nltk stopword (Bird et al., 2009)(https://arxiv.org/html/2606.24055#bib.bib6),未从列表中移除 no 和 not
- •清洗:表情符号转换 (Kim and Wurster, 2021)(https://arxiv.org/html/2606.24055#bib.bib10)、转换为小写、去缩写、符号移除、标点符号移除 (Bird et al., 2009)(https://arxiv.org/html/2606.24055#bib.bib6)

不同预处理技术的可能实施顺序为 $5!$。尝试运行所有可能的组合和顺序计算量很大。因此,通过考虑顺序限制和不合逻辑的组合来改进计算,从而减少了需要考虑的组合数量。停用词移除、拼写纠正和词干提取需要分词后的文本;因此,它们必须在分词之后实施。文本变换和归约可以在分词之前或之后应用。由于所有清洗过程都使用字符串识别,因此文本不需要分词。考虑到的另一个顺序实施是在词干提取之前运行拼写纠正,因为词干提取器无法处理错误的单词。为了进行拼写纠正、词干提取算法和停用词移除,文本必须被分词。这些因素将可能的顺序从 $5!$ 减少到15种,可能的顺序见表2(https://arxiv.org/html/2606.24055#S5.T2)。

清洗过程有 $2^5$ 种不同组合,还有四种不同的拼写纠正算法(包括不实施)。类似地,对词干提取应用了五种方法,也考虑了不进行词干提取。有四种分词方法(包括空白分词),停用词可以移除或不移除。所有这些加起来共有 $2^5 \times 4 \times 5 \times 4 \times 2 = 5120$ 种不同技术的可能组合。清洗后,最终文本通过四种不同的情感分析模型运行:朴素贝叶斯 (NB)、K-means (

相似文章

寻找最优分词器

Hacker News Top

这篇博客文章提出一个使用整数线性规划的算法来计算语言模型的最优分词器,并将其与解决旅行商问题相类比。文中指出,虽然结果在理论上很有趣,但实际的分词器已经接近最优,并且该方法可能不具备良好的泛化能力。