星级之错:评分与情感不一致的行为驱动因素
摘要
本文研究了斯里兰卡旅游评论中星级评分与文本情感不一致的行为驱动因素,发现18.6%的评论存在错配,并呈现六种方向模式,同时指出场所类型、评论者专业水平和时间因素是其影响因素。
查看缓存全文
缓存时间: 2026/06/25 05:12
# 我们明星的缺陷:评分与情感不一致的行为驱动因素
来源:https://arxiv.org/html/2606.25518
Ramanaish Abaiyan, Ruththiragayan Sutharsan, Kusal Amantha, Anusan Krishnathas, Asma Rauff, Kovindarajah Sriyathurshan, Patalee Narasinghe, Nirasha Munasinghe, Nisansa de Silva, Sandareka Wickramanayake
###### 摘要
当人们在线分享体验时,他们通常通过两种方式表达想法:星级评分和书面评论。在情感分析中,评分被广泛用作文本情感的便捷弱标签,但两者是否一致却很少受到质疑。本研究调查了情感与评分的不一致性,即评论文本中表达的情感与所分配的星级评分所暗示的情感不同,以斯里兰卡旅游景点评论为研究对象。使用基于Transformer的情感分析管线对2010年至2023年间收集的16,156条评论进行分析,该管线独立于所分配的评分推导文本情感。不一致性出现在18.6%的评论中,并呈现六种方向模式,其中保守评分者和强制性五星行为占不匹配的大多数。不同场所类型中不一致性的发生率也有所不同,博物馆的比例最高。统计分析、逻辑回归、随机森林和SHAP分析表明,场所类型、评论者专业知识、评论长度和时间因素都会导致评分与文本的差异。总体而言,本研究表明星级评分不可与文本情感互换,在将其视为NLP中的真实标签之前应进行验证。
## I引言
在线旅游评论是理解游客体验的重要用户生成内容来源。大多数评论平台允许用户通过星级评分和书面评论来表达他们的体验。在情感分析和评论挖掘中,星级评分常被视为文本情感的便捷弱标签[16 (https://arxiv.org/html/2606.25518#bib.bib1),3 (https://arxiv.org/html/2606.25518#bib.bib2)]。然而,这种假设并不总是可靠的。高评分不一定意味着评论文本完全正面,而中等评分仍可能包含强烈的正面语言。这引出了一个NLP问题:当评分被用作情感分析的真实标签时,可能引入噪声或上下文偏差的标签。
TripAdvisor等平台的增长扩大了旅游评论数据[11 (https://arxiv.org/html/2606.25518#bib.bib3)]。许多研究使用这些评论分析目的地形象、游客满意度和消费者行为。然而,基于评分的情感和基于文本的情感之间的关系仍未得到充分研究。在许多情感分析管线中,星级评分被用作代理标签,而没有验证书面评论是否表达了相同的情感极性。从NLP的角度来看,这成为一个弱监督问题,使用评分训练或评估的模型可能学习到扭曲的模式,而非语言中表达的实际情感。
先前的研究表明,评分与文本的不一致性是在线评论中反复出现的问题[6 (https://arxiv.org/html/2606.25518#bib.bib4),14 (https://arxiv.org/html/2606.25518#bib.bib5)]。然而,大多数旅游情感分析文献仍然依赖评分作为情感标签,尤其是在酒店和餐厅情境中[3 (https://arxiv.org/html/2606.25518#bib.bib2),5 (https://arxiv.org/html/2606.25518#bib.bib8)]。尽管基于方面的情感分析和主题建模改进了从评论文本中提取细粒度信息[7 (https://arxiv.org/html/2606.25518#bib.bib9),4 (https://arxiv.org/html/2606.25518#bib.bib10)],但评分是否能可靠地代表文本情感这一更广泛的问题却较少受到关注。这一差距在代表性不足的旅游情境中尤其重要,因为评论行为可能受到当地文化期望、景点类型和评论者经验的影响。
近期基于Transformer的语言模型为更有效地研究情感与评分不一致性提供了机会。BERT[10 (https://arxiv.org/html/2606.25518#bib.bib14),19 (https://arxiv.org/html/2606.25518#bib.bib15)]和RoBERTa等模型比传统的基于词典的方法[22 (https://arxiv.org/html/2606.25518#bib.bib6),17 (https://arxiv.org/html/2606.25518#bib.bib7)]更能捕捉上下文含义。在本研究中,使用基于Transformer的情感推断独立于所分配的评分推导文本情感,从而允许将评论文本作为独立的语言信号进行分析。
本研究使用2010年至2023年间收集的16,156条斯里兰卡旅游景点评论[18 (https://arxiv.org/html/2606.25518#bib.bib17)],探讨基于评分的情感和基于NLP的文本情感发生分歧的频率、这些不匹配所呈现的方向形式,以及哪些上下文和评论者层面的因素与之相关。星级评分被分为负面、中立和正面三类,而文本情感则通过比较模型评估选定的基于Transformer的情感分析管线进行推断。由此产生的不匹配被组织成六种方向不一致性模式,超越了简单的匹配/不匹配分类。
在通过基于Transformer的NLP推断推导出文本情感后,使用统计和机器学习模型作为辅助解释工具,检查与评分-文本差异相关的因素。本研究做出四项贡献:评估了星级评分作为文本情感弱标签的有效性,独立于评分应用基于Transformer的情感推断,引入了六种方向性的情感-评分不一致性模式,并识别了NLP推断不匹配的上下文和评论者层面驱动因素。
总体而言,本文认为情感-评分不一致性并非随机噪声,而是一种系统性的、依赖于上下文的信号。对于NLP研究,研究结果突显了在未经验证的情况下将星级评分视为真实情感标签的风险。对于旅游评论分析,它们表明评分和书面评论捕捉了游客体验的不同方面,支持了需要上下文感知情感分析方法的需求。![[无标题图片]](https://arxiv.org/html/2606.25518v1/images/huggingface.png)数据 (https://huggingface.co/datasets/Abaiyan/Sri-lankan-tourism-review-incongruence)和![[无标题图片]](https://arxiv.org/html/2606.25518v1/images/github.png)代码 (https://github.com/Abaiyan-27/Group-J---Research-Paper.git)公开可用。
## II相关工作
Pang和Lee[16 (https://arxiv.org/html/2606.25518#bib.bib1)]的基础性调查将情感分析确立为一个主要研究领域,并强化了星级评分大致反映评论文本中情感的共同假设。尽管存在公认的局限性,但这种惯例在旅游研究中仍作为实用的弱标签策略被广泛使用。Alaei等人[3 (https://arxiv.org/html/2606.25518#bib.bib2)]指出,评分往往被视为弱标签而未经明确验证,且文献主要集中在酒店和餐厅。这一不平衡性进一步被Ameur等人[5 (https://arxiv.org/html/2606.25518#bib.bib8)]强调,他们报告了现有研究中场所多样性有限、地理覆盖范围受限的问题,特别是在新兴旅游目的地。
方法论上的进展显著改善了旅游情感分析。Wen等人[22 (https://arxiv.org/html/2606.25518#bib.bib6)]展示了诸如BERT[10 (https://arxiv.org/html/2606.25518#bib.bib14)]和ERNIE[19 (https://arxiv.org/html/2606.25518#bib.bib15)]等基于Transformer模型的有效性,而Puh和Babac[17 (https://arxiv.org/html/2606.25518#bib.bib7)]表明联合分析情感和评分可以提供更详细的见解。多语言方法和基于方面的方法通过将情感与旅游体验的具体组成部分联系起来,进一步提高了可解释性[7 (https://arxiv.org/html/2606.25518#bib.bib9),4 (https://arxiv.org/html/2606.25518#bib.bib10)]。最近,零样本方法扩展了分析标注数据有限的研究不足数据集的可行性[15 (https://arxiv.org/html/2606.25518#bib.bib16)]。
这种不一致性也出现在区域文献中。Abeysinghe和Walgampaya[1 (https://arxiv.org/html/2606.25518#bib.bib11)]记录了阿努拉德普勒酒店评论中的评分-文本不兼容性,而Abeysinghe和Bandara[2 (https://arxiv.org/html/2606.25518#bib.bib12)]将此发现扩展到斯里兰卡五个城市,并提出了一种自学习方法来解决该问题。然而,两者都依赖于基于词典的方法,并且主要将问题定义为需要纠正而非解释。相比之下,本研究使用基于Transformer的情感分析,并将不一致性解释为一种依赖于上下文的NLP弱标签可靠性问题。
在语言没有足够标注文本情感数据的低资源环境中[9 (https://arxiv.org/html/2606.25518#bib.bib22)],已有尝试利用星级评分[12 (https://arxiv.org/html/2606.25518#bib.bib18),13 (https://arxiv.org/html/2606.25518#bib.bib19)]或Facebook反应[21 (https://arxiv.org/html/2606.25518#bib.bib21),20 (https://arxiv.org/html/2606.25518#bib.bib20)]推导文本情感。然而,关于评分与评论文本关系的实证发现仍然不一。Bigne等人[6 (https://arxiv.org/html/2606.25518#bib.bib4)]报告两者大致一致,但也指出了不同情境下的差异。George和Ramos[11 (https://arxiv.org/html/2606.25518#bib.bib3)]表明,在目的地相关评论中,评分可能超过基于文本的情感,而Kwon等人[14 (https://arxiv.org/html/2606.25518#bib.bib5)]证明评分-文本不一致性因情境而异,并影响感知的评论有用性。这些发现表明,评分和文本并不总是捕捉体验的同一维度。
评论者特征似乎也很重要。Chua和Banerjee[8 (https://arxiv.org/html/2606.25518#bib.bib13)]表明评论者专业知识影响评分与文本内容之间的关系,而相关研究将情感极性和评论深度与感知有用性联系起来[8 (https://arxiv.org/html/2606.25518#bib.bib13),5 (https://arxiv.org/html/2606.25518#bib.bib8)]。综合来看,这些研究表明评分和文本可能编码了用户体验的不同方面,并且不一致性可能部分受到评论者层面行为的影响。
总体而言,情感-评分不一致性仍然未得到充分理解,尤其是在旅游景点情境和新兴目的地中。尽管近期方法支持大规模和细粒度分析[22 (https://arxiv.org/html/2606.25518#bib.bib6),17 (https://arxiv.org/html/2606.25518#bib.bib7),7 (https://arxiv.org/html/2606.25518#bib.bib9),4 (https://arxiv.org/html/2606.25518#bib.bib10),15 (https://arxiv.org/html/2606.25518#bib.bib16)],但对于多场所、纵向数据集中方向性不匹配模式的结构及其驱动因素的证据仍然有限。本研究通过将评分-文本不匹配分析为NLP中的弱标签可靠性问题,填补了这一空白。
## III方法论
表 I: 方法论概述
### III-A 数据集与预处理
该框架首先将大量、场所多样化的评论集合转换为适用于分析情感-评分不一致性的分析数据集,涵盖地点、时间和评论者行为。本研究使用了来自Mendeley Data[18 (https://arxiv.org/html/2606.25518#bib.bib17)]的“旅游与旅行评论:斯里兰卡目的地”数据集,包含2010年至2023年间斯里兰卡11种景点类型的16,156条评论。预处理过程中检查了缺失值和重复项。日期字段用于创建旅行年份和评论延迟,负延迟值设为零。原始位置文本通过基于规则的解析和手动映射进行处理,以识别省份和地区。评论长度按评论文本的字符数计算。星级评分被分为三类:
- • 负面 (1–2⋆\\star)
- • 中立 (3⋆\\star)
- • 正面 (4–5⋆\\star)
此分组遵循情感分析中的常见做法[16 (https://arxiv.org/html/2606.25518#bib.bib1),3 (https://arxiv.org/html/2606.25518#bib.bib2)],并使评分量表与三类情感输出直接可比。表II (https://arxiv.org/html/2606.25518#S3.T2)列出了用于分析的源列。该预处理确保在建模评分-文本差异之前,情感标签、评分类别、时间变量和评论者层面特征得到一致构建。
表 II: 分析中使用的源列
### III-B 情感模型选择
为了独立于评分推导文本情感,在手动标注的1,000条评论集上测试了四种基于Transformer的模型。数据集分为700个训练实例和300个测试实例,训练部分用于微调选定模型,测试集用于比较评估。评论标题和文本合并作为输入,模型性能使用宏F1、准确率和加权F1进行评估。包含宏F1是因为情感类别可能不平衡。如表III (https://arxiv.org/html/2606.25518#S3.T3)所示,预训练的cardiffnlp/twitter-roberta-base-sentiment模型整体表现最佳,被选中用于标注整个数据集[10 (https://arxiv.org/html/2606.25518#bib.bib14),19 (https://arxiv.org/html/2606.25518#bib.bib15)]。该模型在分类性能和泛化能力之间取得了良好平衡,优于微调变体,同时避免了在标注数据集规模有限的情况下可能出现的过拟合。这种方法独立于星级评分测量文本情感,减少了循环性,并能够检测两个信号(基于评分的情感和基于NLP的文本情感)之间的不匹配。
表 III: 情感模型性能(测试集,n=300n=300)
### III-C 变量构建
在情感标注后,原始标题和文本被移除,不用于进一步分析。不一致性定义为情感与评分类别之间的不匹配,而模式记录了六种不匹配类型。评论者层级将评论者分组如下:新手 (0–5)、偶尔 (6–20)、活跃 (21–100)、专家 (101以上)。
评论者层级通过分析贡献分布来定义。数据显示强正偏态(中位数=54\\text\{中位数\}=54,最大值=9010\\text\{最大值\}=9010):大多数评论者贡献1–5条评论,而少数评论者超过100条。基于此分布,阈值设为0–5、6–20、21–100和101以上,以捕捉不同的参与水平。每个层级对应可测量的行为差异。评论数为0–5的评论者表现出最低的平台熟悉度,而6–20范围反映了偶然参与。21–100层级识别出持续参与的活跃用户,101以上代表高度投入的专家评论者。此分层进一步得到评分行为的支持:保守评分者模式从新手评论者的27.4%上升到专家的40.4%,表明与经验相关的评分实践。因此,这些层级同时捕捉了贡献强度和评分-文本对齐的可观察差异[8 (https://arxiv.org/html/2606.25518#bib.bib13)]。相似文章
基于文本的因果推断方法:解析影响在线评价评分的多维因素
本文提出了一种基于文本的因果推断方法,通过改进的 CausalBERT 模型,解析各独立维度(如学校管理、学业表现)对在线评价总体评分的影响,并在超过 60 万条美国 K-12 学校评价数据上进行了验证。主要改进包括:温度缩放、超参数优化以及可解释性方法,以减少混淆偏差。
隐藏的共识:人类反馈中的偏好有效性压缩
本文认为,标准RLHF将人类偏好标量化的做法导致多个有效解释被压缩为单一目标,从而在文化多元的社会中错误衡量对齐。通过对马来西亚数据集的分析,研究发现79%的提示词存在多个多数支持的回答,而这些回答在单一胜者聚合中被丢弃。
面向威胁主体分析的日本网络评论作者归属基础研究
这是一项将风格学作者归属技术应用于威胁情报的基础研究。我们使用日本Rakuten的评论内容,对比了TF-IDF+LR、BERT嵌入、BERT微调以及度量学习方法。总体而言,BERT-FT的表现最佳;但在将任务扩展至数百位作者的场景时,TF-IDF+LR在稳定性与效率上展现出更大优势。
主题情感是否影响感知的意识形态?人类与LLM对政治新闻文章标注的比较
本文探讨了主题情感是否对新闻文章中感知到的政治意识形态产生因果影响,比较了来自 AllSides 的人类标注与来自包括 GPT-4o-mini 和 Llama-3.3-70B 在内的 LLM 标注。研究发现,微调后的 GPT-4o-mini 表现出一种虚假的情感-意识形态耦合,而这种耦合在人类判断中并不存在,这凸显了在因果分析中使用 LLM 标注作为代理的风险。
Review Arcade:论LLM评审的人类对齐与可游戏性
本文利用1000份真实的ACL 2025投稿,研究了LLM生成的评审与人类判断的对齐情况。研究发现,两者的一致性有限,且在不同模型和提示词下存在不稳定性。此外,文章提出了一种无需实质性修改即可人为提高评分的方法。作者建议不应仅依赖LLM评审,并呼吁就其在应对日益增长的投稿量中的作用展开讨论。