Persuasion Index: 一个理论指导的说服分析框架
摘要
介绍了Persuasion Index (PI),一个包含15个维度和55个子特征的理论指导框架,用于分析文本中的说服修辞线索。该框架模块化、开源,并在四个数据集上进行了评估,为与说服相关的结果提供了可解释的特征空间。
arXiv:2606.14580v1 公告类型:新
摘要:识别说服性修辞线索在多个领域都至关重要,从检测信息操纵和提高AI安全,到推进公共卫生传播。我们提出了Persuasion Index (PI),这是一个基于心理学和传播学说服理论的15维度分类体系,以及一个使用55个基于词典和规则检测器的子特征的透明实现。该分类体系具有模块化特性:可以在保留理论结构的同时替换单个检测器。通过在四个领域、风格和结果度量各异的公共数据集上评估PI,我们证明PI提供了一个共享的特征空间,用于解释与说服结果相关的修辞模式。线性模型显示,PI特征在保持计算轻量化的同时,携带了有意义的预测信号。维度层面的分析揭示了PI维度与数据集间说服结果之间的反复关联,同时也突出了主题和立场特定的变化。我们将PI作为开源包和Web界面发布,用于对人类和AI中介传播进行有原则且可审计的分析。
查看缓存全文
缓存时间: 2026/06/15 08:58
# 说服指数:一种理论引导的说服分析框架
来源:https://arxiv.org/html/2606.14580
连城龚¹ 王志洋² 徐怡伟¹ Julia Mendelsohn¹
¹马里兰大学帕克分校 ²纽约大学
{gonglc, juliame}@umd.edu
###### 摘要
识别有说服力的修辞线索在多个领域都至关重要,从检测信息操纵、提升AI安全性,到推进公共卫生传播。我们提出了**说服指数(PI)**,这是一个基于心理学和传播学说服理论的15维度分类体系,并构建了一个透明实现,使用55个基于词典和规则检测器的子特征。该分类体系是模块化的:单个检测器可以被替换,同时保留理论结构。通过在四个不同领域、风格和结果衡量标准的公开数据集上评估PI,我们展示了PI提供了一个共享的特征空间,用于解读与说服相关结果相关联的修辞模式。线性模型表明,PI特征在保持计算轻量化的同时,携带了有意义的预测信号。维度层面的分析揭示了PI维度与说服结果在不同数据集之间反复出现的关联,同时也突出了特定话题和立场的变化。我们将PI作为一个开源包和Web界面发布,用于对人工和AI介导的通信进行原则性和可审计的分析。¹¹¹我们的代码、数据和包可在https://github.com/krystalgong/Persuasion_Index_Code获取。网站可在https://krystalgong.github.io/pi/访问。
说服指数:一种理论引导的说服分析框架
连城龚¹ 王志洋² 徐怡伟¹ Julia Mendelsohn¹
¹马里兰大学帕克分校 ²纽约大学
{gonglc, juliame}@umd.edu
## 1 引言
参见图注
图1:关于塑料污染的两条论据。信息A(偏重逻辑)依赖统计数据和机构引用来提供事实依据;信息B(偏重情感)依赖情感共鸣、紧急性和威胁框架。
说服是一个信息改变受众信念、态度或行为的过程(okeefePersuasionTheoryResearch2015)。随着AI系统在公共话语中影响力的扩大,理解说服变得越来越紧迫(salviConversationalPersuasivenessGPT42025; hackenburgEvaluatingPersuasiveInfluence2024; bozdagMustReadComprehensive2026)。LLM在大型政治说服实验中已展现出可测量的态度改变(hackenburgLeversPoliticalPersuasion2025);AI生成的内容加速了健康错误信息的传播(augensteinFactualityChallengesEra2024);对话代理在面向人类和多智能体系统中越来越多地扮演说服者角色(breumPersuasivePowerLarge2024; matzPotentialGenerativeAI2024; dashPersuasivePotentialAIparaphrased2025; chengStrategicPersuasionLanguage2026)。在这些场景中,检测说服是不够的;审计需要识别所使用的潜在修辞线索,因为逻辑、情感和信誉方面的诉求需要不同的回应。
之前关于说服的NLP工作主要集中在预测说服结果,而不是解释其背后的修辞机制。不同数据集的说服结果差异很大,从两两比较的令人信服程度判断(habernalWhichArgumentMore2016)到自我报告的观点变化(tanWinningArgumentsInteraction2016)以及实验测量的前后态度转变(MeasuringPersuasivenessLanguage)。从词袋分类器到微调Transformer和基于LLM的评判模型,都能达到很强的预测性能,但它们的输出通常是二元标签或标量分数(yangLetsMakeYour2019; bassiDecodingPersuasionSurvey2024)。例如,图1 (https://arxiv.org/html/2606.14580#S1.F1) 展示了两个得出相同结论但使用了完全不同修辞线索的论点,这是标量说服力预测可以吸收但无法揭示的差异。虽然事后归因方法可以解释哪些词元或特征影响了特定模型,但它们没有提供一个稳定的词汇表来跨数据集、领域或交流场景比较有说服力的语言。这就需要一种可解释的框架,能够直接以基于理论的修辞维度来表示有说服力的语言,独立于任何特定的预测模型或数据集特定的标签方案。
我们通过提出**说服指数(PI)** 并包含两个独立组成部分来填补这一空白。核心组成部分是一个基于心理学、传播学和修辞学成熟理论的15维度分类体系,映射到亚里士多德的三元组**Logos**、**Ethos**和**Pathos**。第二个组成部分是通过55个细粒度子特征对该分类体系的实现,这些子特征通过基于理论的词典、基于LLM的扩展、验证过的计算语言学资源和轻量级基于规则的检测器来实现。PI在设计上是模块化的:我们提供一个完整的实现,但各个子特征的测量可以互换和扩展,而不会破坏分类体系。与不透明的神经表示不同,PI直接从文本中提取特征,确保每个分数都可以追溯到特定的词汇或结构模式。
我们做出以下贡献:
1. 1. 说服指数(PI),一个基于理论的说服修辞分类体系
2. 2. 通过可解释的词典和基于规则的特征进行实现
3. 3. 在四个异构说服数据集上的实证预测验证
4. 4. 分析PI维度和说服结果,揭示了跨数据集、话题和立场的规律性和变异性
5. 5. 一个开源包和公开的Web界面,用于实时论点分析(附录J (https://arxiv.org/html/2606.14580#A10)),使研究人员能够在自己的数据上应用和扩展该框架。
PI可以广泛支持跨学科的说服研究,用例包括社会科学研究中的内容分析或实验刺激验证,以及人类-LLM或多智能体交互中说服内容的AI安全审计。
## 2 背景
心理学和传播学的研究长期以来将说服视为多维度的,而非单一的标量属性。诸如精细加工可能性模型和启发-系统模型等双过程理论区分了**中心/系统处理**(特征是对证据和论据质量的严格评估)和**外围/启发处理**(特征是对来源可信度、情感语气等线索的依赖)(pettyElaborationLikelihoodModel1986; chaikenHeuristicSystematicInformation1980)。PI建立在这一传统之上,包含了对应两条路径的修辞维度;第3节 (https://arxiv.org/html/2606.14580#S3) 详述了每个PI维度的理论锚点。
之前的NLP工作主要通过任务和领域特定的分类体系来操作化说服,每个分类体系都强调说服机制的一个狭窄子集。关于利他请求、众筹和慈善捐赠的研究聚焦于外围线索,强调社会和关系策略(althoffHowAskFavor2014; mitraLanguageThatGets2014; wangPersuasionGoodPersonalized2019; yangLetsMakeYour2019; chenWeaklySupervisedHierarchicalModels2021)。相反,论点挖掘研究主要针对逻辑导向的论点结构和质量(wachsmuthComputationalArgumentationQuality2017; ghoshCoarsegrainedArgumentationFeatures2016; carlileGiveMeMore2018; gretzLargescaleDatasetArgument2020; toledoAutomaticArgumentQuality2019; joshiArgAnalysis35KLargescaleDataset2023; rombergPerspectivistTurnArgument2025)。宣传检测研究在新闻和政治文本中定义和标注细粒度的说服技巧(dasanmartinoFineGrainedAnalysisPropaganda2019; dimitrovSemEval2021Task62021; piskorskiSemEval2023Task32023; modzelewskiPCoTPersuasionAugmentedChain2025; sajwaniFRAPPEFRAmingPersuasion2024)。
碎片化的第二个来源是数据集以异构方式定义说服成功,包括两两比较的令人信服程度判断(habernalWhichArgumentMore2016; gleizeAreYouConvinced2019; toledoAutomaticArgumentQuality2019; gretzLargescaleDatasetArgument2020),论据质量的标量评分(ghoshCoarsegrainedArgumentationFeatures2016; carlileGiveMeMore2018; joshiArgAnalysis35KLargescaleDataset2023)。一种互补的范式测量前后态度变化,使用观点转变的显式标记或调查问卷(tanWinningArgumentsInteraction2016; luuMeasuringOnlineDebaters2019; montiLanguageOpinionChange2022; MeasuringPersuasivenessLanguage)。因此,现有资源提供了对说服性语言的强有力的局部解释,但它们的领域特定分类体系和异构结果标签使得难以比较跨领域的说服性语言,或确定观察到的模式是否可以推广到其他语料库。
与许多其他任务类似,NLP研究通常强调预测性能而非解释能力,建模已趋向于更高容量、更低可解释性的架构。早期工作将手工制作的 linguistic 特征、论点结构和交互动力学与线性或基于树的模型结合使用(stabAnnotatingArgumentComponents2014; somasundaranDetectingArguingSentiment2007; danescu-niculescu-mizilComputationalApproachPoliteness2013; althoffHowAskFavor2014; mitraLanguageThatGets2014; ghoshCoarsegrainedArgumentationFeatures2016; wangWinningMeritsJoint2017)。后来的研究采用神经架构来预测说服力、论据质量和观点变化(hideyPersuasiveInfluenceDetection2018; yangLetsMakeYour2019; wangPersuasionGoodPersonalized2019; toledoAutomaticArgumentQuality2019; gretzLargescaleDatasetArgument2020; chenWeaklySupervisedHierarchicalModels2021; joshiArgAnalysis35KLargescaleDataset2023)。最近,LLM在受控实验中扮演说服者角色,其信息通过人类态度转变进行评估(breumPersuasivePowerLarge2024; matzPotentialGenerativeAI2024; baiLLMgeneratedMessagesCan2025; hackenburgEvaluatingPersuasiveInfluence2024; hackenburgComparingPersuasivenessRoleplaying2025; salviConversationalPersuasivenessGPT42025; chengStrategicPersuasionLanguage2026; costelloDurablyReducingConspiracy2024; dashPersuasivePotentialAIparaphrased2025; sharmaGenerativeEchoChamber2024),并作为说服强度和策略使用的评判者(pauliMeasuringBenchmarkingLarge2025; breumPersuasivePowerLarge2024; salviConversationalPersuasivenessGPT42025; MeasuringPersuasivenessLanguage; modzelewskiPCoTPersuasionAugmentedChain2025)。随着LLM越来越多地生成、个性化和评估有说服力的信息,NLP研究有必要不仅预测说服,还要提供潜在修辞策略的可解释度量。
最近的工作已开始通过将预测建立在理论之上来解决这一需求。sudharsanCrossDomainPersuasionDetection2025 表明结合论据成分和语义类型可改善跨领域泛化。hoangHybridTheoryDatadriven2025 将心理学理论与LLM生成的特征评分结合到可解释分类器中。PI具有相同的动机,但在范围和操作化方面有所不同。PI并非主要关注论据结构,而是跨越逻辑、情感和信誉诉求来代表说服性语言。虽然PI框架是模块化的,但我们提供的实现使用了透明的词典和基于规则的特征。这些选择使PI成为一种共享的、可审计的表示方式,用于跨语境比较说服性语言和描述语言策略,超越结果预测。
## 3 理论引导框架
参见图注
图2:说服指数(PI)分类体系。15个维度组织在亚里士多德三元组**Logos**、**Ethos**和**Pathos**之下,子特征列在每个维度下。
PI将其15个维度映射到亚里士多德三元组**Logos**、**Ethos**和**Pathos**(aristotleRhetoricTheoryCivic2006a),这是一个用于组织说服预测因素的元框架,也用于论据质量和修辞分析(carlileGiveMeMore2018; higginsEthosLogosPathos2012)。在**Logos**下,PI针对认知精细加工的中心路径,包括**证据**、**具体性**、**逻辑与连贯性**、**论证**和**对方观点**。在**Ethos**下,PI捕获启发式可信度信号,包括**权威与可信度**、**礼貌**、**承诺**和**风格**。在**Pathos**下,PI包含情感和社会合规触发因素,包括**情感**、**影响**、**参与度**、**互惠**、**稀缺性与紧迫性**和**宣传**。图2 (https://arxiv.org/html/2606.14580#S3.F2) 展示了15个维度和55个子特征,理论锚点和先前的计算语言学操作化方法映射在表LABEL:tab:pi_categories中。
### 3.1 Logos:诉诸理性
**Logos**捕获论点内部的一致性和事实依据,针对认知处理的中心路径,在此接收者仔细评估声明的有效性(pettyElaborationLikelihoodModel1986)。
**证据**:用于支持声明的可验证事实、统计数据和归因信息。子特征通过将声明锚定在可验证的事实和权威来源上来针对认知信念(zebregsDifferentialImpactStatistical2015)。包含命名实体得到了例证理论的支持:具体的例子可以增强感知到的议题严重性和信息回忆(bigsbyExemplificationTheoryReview2019)。
**逻辑与连贯性**:论点推理的明确结构以及通过连接性和指代性语言实现认知可及性。由逻辑连接词促成的高文本连贯性减少认知负荷,使读者能够专注于内容而非处理结构(kaakinenInfluenceTextCohesion2011)。这种结构逻辑作为一种认知促进因素,确保信息可以通过系统路径进行处理(chaikenHeuristicSystematicInformation1980)。
**论证**:声明的结构明确性以及支持前提的数量和复杂程度。明确表述结论的信息减少受众误解并确保预期观点得到传达(okeefeStandpointExplicitnessPersuasive1997a)。对于低参与度的受众,前提密度额外可作为ELM下的一种外围“长度即为强度”启发式(pettyEffectsInvolvementResponses1984)。
**具体性**:语言抽象程度和论点主体的心理距离。解释水平理论认为,具体、明确的语言对于即时目标更具说服力,因为它促进感知生动性并增加感知真实性(fujitaInfluencingAttitudesDistant2008; hansenTruthLanguageTruth2010; packardHowConcreteLanguage2021)。通过第二人称代词的使用实现的交互即时性进一步触发自我参照,加深接收者参与度(cruzSecondPersonPronouns2017)。
**对方观点**:承认并驳斥反对立场。驳斥性的双面信息(先承认然后攻击对方立场)比单面信息更具说服力,因为它们预先解决了接收者的异议(okeefeHowHandleOpposing1999)。非驳斥性的双面信息一贯比单面诉求效果更差(allenMetaanalysisComparingPersuasiveness1991)。
### 3.2 Ethos:诉诸品格
**Ethos**捕获嵌入在语言选择中的可信度信号,作为启发式捷径,独立于论点内容塑造接收者信任(hovlandInfluenceSourceCredibility1951; chaikenHeuristicSystematicInformation1980)。相似文章
Ψ-Bench:评估对话中基于人格的影响力 persuasion
Ψ-Bench是一个基准测试,用于评估大语言模型通过对话影响用户的能力,并整合用户画像以进行个性化说服。实验表明,即使是最先进的模型仍有改进空间,而获取客户画像能显著提升性能。
基于 TIDE 的稳健议论文理解:一种融合试炼与辩论的交互框架
本文介绍了 TIDE,一种新颖的框架,它整合了试炼与辩论机制,以改善基于标准的提示优化,用于议论文理解任务,如自动作文评分、论证成分检测和论证关系识别。实验结果显示性能提升,突显了结合基于提示的方法进行鲁棒论证分析的潜力。
Ψ-Bench:评估说服性对话中的人设敏感影响
介绍Ψ-Bench,一个用于评估大语言模型通过带有个人档案的说服性对话影响用户能力的基准。测试了10个前沿LLM,发现仍有显著改进空间,而访问档案平均提升18.24%的性能。
说服策略有多重要?来自慈善对话的LLM标注证据
研究者用三个开源大模型为PersuasionForGood语料库中的10,600条说服者回合标注41种说服策略,发现策略类别对捐赠方差解释力极低,而“内疚诱导”显著降低捐赠率。
AI认知遵从指数:一种连续的谄媚行为度量
本文介绍了AI认知遵从指数(AEDI),这是一种连续的度量,用于衡量模型对事实主张的表达支持程度如何根据用户所表达的态度而改变,并评估了八个主流模型,发现了显著的谄媚行为且在不同提供商之间存在差异。