使用语法与语义上下文评估汇总(SSAS)的情感预测一致性分析

arXiv cs.CL 论文

摘要

本论文提出了SSAS(语法与语义上下文评估汇总)框架,旨在通过分层分类和迭代汇总来减少噪声和方差,提高基于大语言模型的情感预测的一致性。在三个行业标准数据集上的实证评估显示,数据质量和企业决策可靠性可提升30%。

arXiv:2604.15547v1 公告类型:新增 摘要:将大语言模型(LLMs)用于可靠的企业级分析(如情感预测)的根本挑战在于,LLM固有的随机性(生成式、非确定性特征)与分析所需的一致性之间的矛盾。LLM的不一致性加上现代混乱数据集的噪声特性,使得情感预测对战略业务决策而言过于波动。为解决这一问题,我们提出了语法与语义上下文评估汇总(SSAS)框架来建立上下文。SSAS建立的上下文作为一个复杂的数据预处理框架,对LLM实施有界注意机制。它通过应用分层分类结构(主题、故事、簇)和基于迭代摘要汇总(SoS)的上下文计算架构来实现这一目标。这使原始文本具有高信号、情感密集的提示词,有效减轻了无关数据和分析方差的影响。 我们使用Gemini 2.0 Flash Lite针对SSAS框架与直接LLM方法进行了实证评估,在三个行业标准数据集——Amazon产品评论、Google商业评论、Goodreads图书评论——和多个鲁棒性场景上进行了测试。结果表明,SSAS框架通过噪声去除和情感预测估计的改进,能够显著提升数据质量,提升幅度高达30%。最终,我们上下文估计能力的一致性为决策提供了稳定可靠的证据基础。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:27

# 使用句法与语义上下文评估总结(SSAS)的情感预测一致性分析

来源: https://arxiv.org/html/2604.15547

Nitin Mayande,Tellagence Inc.††thanks:{sharookh, nitin, shreeya}@tellagence.com
Shreeya Verma Kathuria,Tellagence Inc.††thanks:{sharookh, nitin, shreeya}@tellagence.com
Nitin Joglekar,Villanova School of Business, Villanova University††thanks:[email protected]
Charles Weber,Maseeh College of Engineering and Computer Science, Portland State University††thanks:[email protected]

###### 摘要

使用大型语言模型(LLMs)进行可靠的企业级分析(如情感预测)的根本挑战在于LLMs固有的随机性(生成式、非确定性的特质)与分析对一致性的要求之间的冲突。LLM的不一致性加上混乱现代数据集的噪声特性,使情感预测对战略业务决策来说过于波动。为解决这一问题,我们提出了句法与语义上下文评估总结(SSAS)框架来建立上下文。SSAS建立的上下文充当了一个复杂的数据预处理框架,对LLMs实施了有界注意机制。它通过应用分层分类结构(主题、故事、集群)和迭代总结-总结(SoS)的上下文计算架构来实现这一点。这为原始文本赋予了高信号、情感浓密的提示,有效地缓解了无关数据和分析差异。

我们使用Gemini 2.0 Flash Lite对SSAS的有效性进行了经验评估,针对三个行业标准数据集(亚马逊产品评论、谷歌商业评论、Goodreads图书评论)和多个鲁棒性情景与直接LLM方法进行了比较。我们的结果表明,SSAS框架能够通过噪声去除和情感预测估计的改进相结合,将数据质量显著提高30%。最终,我们在上下文估计能力方面的一致性为决策提供了稳定可靠的证据基础。

**关键词** 自然语言处理(NLP)⋅人工智能(AI)⋅情感分析

## 1 引言

在当今快节奏的商业环境中,数据驱动决策的要求是绝对的[1](https://arxiv.org/html/2604.15547#bib.bib1)。然而,可用文本数据的数量与从中提取可行见解所需的基础设施之间存在显著差距。虽然战略决策依赖于严格的数据分析,但现代大规模非平凡数据集的规模之大造就了一个混乱的环境,其中信号频繁被技术摩擦的层层压抑。将大型语言模型(LLMs)[2](https://arxiv.org/html/2604.15547#bib.bib2),[3](https://arxiv.org/html/2604.15547#bib.bib3),[4](https://arxiv.org/html/2604.15547#bib.bib4),[5](https://arxiv.org/html/2604.15547#bib.bib5),[6](https://arxiv.org/html/2604.15547#bib.bib6),[7](https://arxiv.org/html/2604.15547#bib.bib7),[8](https://arxiv.org/html/2604.15547#bib.bib8),[9](https://arxiv.org/html/2604.15547#bib.bib9)的集成进一步加剧了这一挑战,其概率架构从根本上与企业级报告的可重复和精确输出需求相悖。运营速度与分析精度之间的冲突由以下系统性压力界定:

- **速度要求** :竞争优势以快速处理大规模数据集的能力为前提。管道中的任何延迟都会导致相关性衰减。
- **信噪比缺陷** :现代大规模文本处理数据(例如社交媒体营销数据集)从根本上是混乱的。虽然数据的一小部分专注于核心问题,但绝大多数由噪声、无足轻重的信息组成,使处理复杂化。
- **战略技能差距** :大规模文本处理团队是领域专家,例如社交媒体营销人员是品牌战略和消费者行为的专家。这些专家不应该被期望拥有将随机LLM输出操纵成可靠数据所需的专业工程技能。

这种环境呈现了两个主要障碍:噪声问题,即识别、隔离和去除无关数据的困难,以及不一致问题,即无法确保基于LLM的分析过程的一致性。在这些障碍仍然存在的情况下,团队被迫进行分析,如情感预测[10](https://arxiv.org/html/2604.15547#bib.bib10),[11](https://arxiv.org/html/2604.15547#bib.bib11),[12](https://arxiv.org/html/2604.15547#bib.bib12),[13](https://arxiv.org/html/2604.15547#bib.bib13),[14](https://arxiv.org/html/2604.15547#bib.bib14),[15](https://arxiv.org/html/2604.15547#bib.bib15),这对于支持企业级决策而言过于波动。这些问题的根源在于使用工具,例如LLM模型,这些工具目前被设计用于生成式创意而非一致的数据处理。

### 1.1 LLM创意的悖论:为什么生成式AI在数据科学中表现不佳

要弥合AI潜力与大规模文本处理执行之间的差距,我们必须解决LLM架构与数据科学需求之间的根本冲突。LLMs从设计上就是概率引擎。虽然其潜在机制在创意合成方面具有革命性,但它们对数据分析的严格、不变需求本质上适应不足。这种失败的根源在于LLM的注意机制[13](https://arxiv.org/html/2604.15547#bib.bib13)。在标准生成配置中,注意机制指定模型在处理过程中优先考虑哪些令牌[16](https://arxiv.org/html/2604.15547#bib.bib16)。因为这些模型针对新颖性进行了优化,该机制可能会在连续运行中向相同的输入令牌分配不同的权重[17](https://arxiv.org/html/2604.15547#bib.bib17)。这种随机性对于创意任务是一项资产,但对于需要潜在空间稳定性以确保数据完整性的数据科学任务来说可能是一个重大负债。在情感预测[12](https://arxiv.org/html/2604.15547#bib.bib12),[14](https://arxiv.org/html/2604.15547#bib.bib14),[15](https://arxiv.org/html/2604.15547#bib.bib15),[18](https://arxiv.org/html/2604.15547#bib.bib18),[19](https://arxiv.org/html/2604.15547#bib.bib19),[20](https://arxiv.org/html/2604.15547#bib.bib20)中,这种创意差异表现为不一致[4](https://arxiv.org/html/2604.15547#bib.bib4),[9](https://arxiv.org/html/2604.15547#bib.bib9),[13](https://arxiv.org/html/2604.15547#bib.bib13),[21](https://arxiv.org/html/2604.15547#bib.bib21)。如果同一数据集在重新运行时产生不同的情感分数,则输出对于战略规划在功能上毫无用处。从战略角度来看,这种不一致不仅仅是技术故障;这是对决策证据基础的侵蚀。为了实现可靠性,我们必须从生成式差异转向一致的标准。

### 1.2 必要能力:总结和情感预测中的一致性

为了使AI驱动的情感分析[12](https://arxiv.org/html/2604.15547#bib.bib12),[14](https://arxiv.org/html/2604.15547#bib.bib14),[15](https://arxiv.org/html/2604.15547#bib.bib15),[18](https://arxiv.org/html/2604.15547#bib.bib18),[19](https://arxiv.org/html/2604.15547#bib.bib19),[20](https://arxiv.org/html/2604.15547#bib.bib20)达到企业级分析的标准,它必须遵守一致性的基准。这不是主观的质量衡量,而是任何旨在作为公司战略稳定基础的系统的技术需求。一致性被定义为当提供相同输入时生成相同输出的能力。在专业分析环境中,今天进行的分析必须完全可在明天复现。没有这一保证,数据驱动的见解仅仅是短暂的快照,缺乏长期战略投资所需的稳定性。

达到这一标准需要一种识别和隔离噪声的严格方法。研究表明,在输入中包含无关信息可能会损害性能,因为它迫使模型关注无关的模式[21](https://arxiv.org/html/2604.15547#bib.bib21)。这造成了一种信噪比缺陷,这在现代营销和商业数据集中特别严重,其中数据的巨大数量往往将可行见解埋没在技术摩擦的层层之下[22](https://arxiv.org/html/2604.15547#bib.bib22)。因此,一个一致的分析框架必须能够(1)识别更广泛数据集内数据点的相关性,(2)将与核心问题相关的数据与无关信息隔离,最后(3)去除噪声以确保注意力仅专注于相关上下文[13](https://arxiv.org/html/2604.15547#bib.bib13),[21](https://arxiv.org/html/2604.15547#bib.bib21)。通过利用这些能力,组织可以将LLMs从创意助手转变为精确的分析工具,以满足大规模文本处理的需求。

### 1.3 分析完整性的分层上下文框架

我们的SSAS框架[23](https://arxiv.org/html/2604.15547#bib.bib23),[24](https://arxiv.org/html/2604.15547#bib.bib24),[25](https://arxiv.org/html/2604.15547#bib.bib25)提出了一种方法来应对噪声和随机不一致的双重危机,通过用专为在混乱数据集上实施完整性而设计的结构化方法替代标准LLM的黑箱不可预测性[26](https://arxiv.org/html/2604.15547#bib.bib26)。该方法通过专业的两阶段框架实现:

1. **上下文相关性** :该过程从在其特定上下文内评估数据开始。通过在粒度级别识别信息相关性,该系统确定哪些数据点与定义的问题相关,哪些是无关的。
2. **噪声减少和可靠性改进** :这是相互依赖的关键点。使用从第1阶段得出的上下文,我们系统地降低数据集噪声。通过仅向LLM输入经过精炼、相关的上下文,我们消除了差异并显著提高了输出的一致性和可靠性。

我们的框架将原始、混乱的数据精炼为可靠且分析相关的数据集。并行地,通过通过派生上下文缩小模型的焦点,该框架确保精炼输入始终产生相同的结果,在很大程度上解决了生成式架构中固有的随机性问题。这种方法减轻了大规模文本处理团队的技术负担,使他们能够专注于战略而非工程方法[27](https://arxiv.org/html/2604.15547#bib.bib27)。本论文的贡献如下。

1. 我们提出了SSAS框架,为LLMs提供辅助上下文,这反过来帮助LLMs聚焦其注意机制并为分析任务提供一致性。
2. 我们的框架将数据集分类为主题、故事和集群的分层结构,以在多个数据聚合级别上创建一致的总结和总结-总结(SoS)。
3. 我们的框架帮助识别数据集内的噪声数据点,并帮助LLMs聚焦于数据集内的信号。
4. 我们的框架能够通过噪声去除和情感预测估计改进的组合,将数据质量显著提高30%。

本文的其余部分组织如下:第2节介绍了与LLM机制、分层信息和语义对齐相关的相关和背景工作。第3节介绍了我们的句法与语义上下文评估总结(SSAS)框架。第4节提供了我们评估框架的详细信息,而第5节介绍了我们的框架与直接LLM方法相比的结果。我们在第6节进行总结。

## 2 相关工作

大型语言模型(LLMs)的出现从根本上重新定义了文本分析,将范式从监督特征工程转向零样本和少样本学习[3](https://arxiv.org/html/2604.15547#bib.bib3),[28](https://arxiv.org/html/2604.15547#bib.bib28)。然而,当这些模型从创意合成转向企业级分析时,它们固有的不稳定性呈现了重大挑战。我们的工作建立在三个主要研究领域之上:情境学习的敏感性[29](https://arxiv.org/html/2604.15547#bib.bib29)、注意力机制的噪声机制[13](https://arxiv.org/html/2604.15547#bib.bib13),[21](https://arxiv.org/html/2604.15547#bib.bib21),以及分层数据总结。第2和3节的部分内容与Kathuria等人[25](https://arxiv.org/html/2604.15547#bib.bib25)相似,因为我们各自的工作共享并建立在Mayande等人[23](https://arxiv.org/html/2604.15547#bib.bib23)最初阐述的SSAS框架之上。为便于访问,我们在本文中总结了这些观点,这样读者无需回到Kathuria等人(同上)。

### 2.1 情境学习和提示不稳定性

大型语言模型(LLMs)在零样本和少样本情景中的效力在很大程度上由情境学习(ICL)范式管理。然而,尽管它们具有复杂的语义潜在空间,LLMs对输入上下文细节表现出深刻而臭名昭著的敏感性。Zhao等人[5](https://arxiv.org/html/2604.15547#bib.bib5)将其表征为提示不稳定性,证明了随机变化——如少样本示例的排列或指令模板中的轻微句法转变——可以引起分类精度的显著波动。这种波动性表明标准注意机制通常会聚焦于表面层级模式而非潜在逻辑结构。此外,变压器上下文窗口的架构约束呈现了一个维度瓶颈。正如Dong等人[6](https://arxiv.org/html/2604.15547#bib.bib6)所指出的,固定令牌限制需要在单个示例的深度和参考集的广度之间进行零和权衡。在企业分析中,数据集高维且充满噪声,这一限制常常导致近期偏差或包含非代表性异常值,这些异常值会混淆模型的结果。

SSAS框架背离了传统ICL,用动态合成的上下文[30](https://arxiv.org/html/2604.15547#bib.bib30),[31](https://arxiv.org/html/2604.15547#bib.bib31)替代了静态、启发式推导的提示。通过对输入背景应用精密过滤管道,我们确保提供给模型的提示在数学上为代表性信号优化。这将上下文从可变的人工工程指令转变为稳定的特征工程工具,有效地解决了生成过程的固有随机性。

### 2.2 注意机制和信噪比挑战

本研究中识别的LLM悖论——其中生成流畅性与分析精度呈反向关联——从根本上源于变压器的注意机制[16](https://arxiv.org/html/2604.15547#bib.bib16)

相似文章

基于SSP构建用于细粒度方面级情感分析的评价标注数据

arXiv cs.CL

本文介绍了利用半自动符号传播(SSP)方法,构建用于电子商务评论细粒度方面级情感分析的韩语评价标注语料库(EVAD)。并在该数据集上评估了KoBERT和KcBERT模型,在方面-值对识别任务上取得了较高的F1分数。