基于概率信念追踪的多轮人类可说服性模型
摘要
本文介绍了PersuasionTrace,一个用于研究人机交互中多轮说服的框架,采用贝叶斯网络模拟目标来建模信念更新。该框架揭示了大语言模型在多种主题和模态下具有说服力,并且贝叶斯目标比普通大语言模型模拟器更符合人类信念动态。
arXiv:2606.05330v1 公告类型:新发布
摘要:大语言模型可以在高风险领域改变人类信念,但大多数说服研究仅依赖于说服前后的信念变化。这些端点测量能够判断说服是否发生,却忽略了对话中信念变化的位置和方式。我们提出了PERSUASIONTRACE,一个用于研究人机交互中说服的框架。该框架基于一个网络实验平台,为多轮说服研究提供了一种工具和过程级评估协议:它记录来自人类或模拟说服目标的多轮信念报告,用修辞维度(理性诉求/logos、情感诉求/pathos、道德诉求/ethos)标注说服者的发言,并通过与真实人类信念动态的吻合度来评估模拟器。利用该框架,我们发现人类目标在多轮信念更新中分为两个聚类,并对修辞策略表现出敏感性;大语言模型在通用和个性化主题、文本和音频模态以及多轮交互中均具有说服力。先前的工作主要使用普通提示的大语言模型来模拟人类目标,但我们表明这些模拟器无法复现人类信念动态。我们引入了一个贝叶斯网络模拟目标,它随时间保持明确潜在信念状态,从而每个说服者消息都能产生认知上真实的信念更新。在类人评估中,我们的贝叶斯目标得分接近人类参考(81 vs 80),而基线大语言模型目标得分显著较低(64)。PERSUASIONTRACE将说服评估从仅关注端点变化重新定义为关注过程保真度,为科学分析和更安全的说服系统优化提供了更坚实的基础。
查看缓存全文
缓存时间: 2026/06/05 08:06
# 使用概率信念追踪的多轮人类可说服性模型 来源:https://arxiv.org/html/2606.05330 Jared Moore 斯坦福大学 [email protected] Noah Goodman 斯坦福大学 Nick Haber 斯坦福大学 Max Kleiman-Weiner 华盛顿大学 ###### 摘要 大型语言模型(LLM)能够在高风险领域改变人类信念,但大多数说服研究仅依赖于前/后测信念变化。这些端点测量能识别是否发生了说服,却无法揭示信念在对话中移动的位置和方式。我们提出PersuasionTrace,一个研究人机对话中说服的框架。该框架基于一个网页实验平台,为多轮说服研究提供了工具和过程级评估协议:它记录人类或模拟说服目标的信念报告,使用修辞维度(逻辑/情感/权威)标注说服者的对话回合,并通过与真实人类信念动态的吻合度评估模拟器。利用该框架,我们发现人类目标在多轮信念更新中可分为两个聚类,且对修辞策略表现出不同的敏感性;LLM在通用和个性化话题、文本和音频模态以及多轮交互中均具有说服力。以往工作主要使用简单提示的LLM来模拟人类目标,但我们证明这些模拟器无法复制人类信念动态。我们引入一个贝叶斯网络模拟目标,它随时间维持一个显式的潜在信念状态,使得每个说服消息都能产生认知上逼真的信念更新。在人类相似度评估中,我们的贝叶斯目标得分接近人类参考值(81 vs 80),而基线LLM目标得分显著较低(64)。PersuasionTrace将说服评估从仅关注端点变化转向过程忠实度,为说服系统的科学分析和更安全的优化提供了更坚实的基础。 ## 1 引言 说服渗透在社会生活的宏观和微观结构中,从政治中社会层面的大规模影响力活动[51 (https://arxiv.org/html/2606.05330#bib.bib51)]到与朋友共进晚餐等日常决策。因此,非人类大型语言模型(LLM)能够说服人类关于阴谋论[21 (https://arxiv.org/html/2606.05330#bib.bib21),23 (https://arxiv.org/html/2606.05330#bib.bib23),98 (https://arxiv.org/html/2606.05330#bib.bib98)]、政治[103 (https://arxiv.org/html/2606.05330#bib.bib103),70 (https://arxiv.org/html/2606.05330#bib.bib70),48 (https://arxiv.org/html/2606.05330#bib.bib48),7 (https://arxiv.org/html/2606.05330#bib.bib7)]、事实性问题[104 (https://arxiv.org/html/2606.05330#bib.bib104)]和慈善[123 (https://arxiv.org/html/2606.05330#bib.bib123)]的观点,这令人惊讶。此外,LLM的说服能力似乎超越了人类[104 (https://arxiv.org/html/2606.05330#bib.bib104),55 (https://arxiv.org/html/2606.05330#bib.bib55)],且其效果可持续数周[21 (https://arxiv.org/html/2606.05330#bib.bib21)]。这些效应似乎主要由生成信息的说服力驱动,而非仅仅是说服者的身份感知[10 (https://arxiv.org/html/2606.05330#bib.bib10)]。更大规模、更个性化的模型更具说服力[47 (https://arxiv.org/html/2606.05330#bib.bib47)]。这些影响是重大的。LLM越来越多地被用于可能影响人们的场景中。在理想情况下,LLM可能帮助我们进行深思熟虑[117 (https://arxiv.org/html/2606.05330#bib.bib117)]或更好地尊重多元观点[111 (https://arxiv.org/html/2606.05330#bib.bib111)]。在消极方面,LLM可能助长妄想螺旋[84 (https://arxiv.org/html/2606.05330#bib.bib84)]、操纵用户[cf.65 (https://arxiv.org/html/2606.05330#bib.bib65),104 (https://arxiv.org/html/2606.05330#bib.bib104),124 (https://arxiv.org/html/2606.05330#bib.bib124)],并固守用户信念[105 (https://arxiv.org/html/2606.05330#bib.bib105),97 (https://arxiv.org/html/2606.05330#bib.bib97)]。鉴于LLM对人类信念变化的显著影响,我们试图更好地理解在与LLM说服者的对话中,人们如何更新信念。我们的焦点是说服目标的演化信念状态:它能定位说服内容何时以及如何移动信念,并为评估可说服性模型提供真实基准。大多数现有研究测量目标在干预前后对某一命题的信念(前/后)(§2 (https://arxiv.org/html/2606.05330#S2.SS0.SSS0.Px1));这对于检验是否发生说服是有用的,但无法识别信念在对话的何处移动以及每一步哪些机制在起作用。为解决这一问题,我们在交互式说服对话中收集多轮信念轨迹,并将这些测量与修辞标注(逻辑、情感、权威)配对。然后,我们利用这些轨迹评估一个明确随时间维护信念状态的结构化模拟目标(被说服者)。我们假设,过程级测量能带来更好的目标模型:匹配人类轨迹动态的模型能比非结构化基线更忠实地支持分析。我们的贡献包括: 1. 1. 一个面向人类参与者的AI说服实验网页服务器,支持多轮信念追踪、音频输入/输出以及参与者自选命题,并证明LLM在这些条件下具有说服力(§3 (https://arxiv.org/html/2606.05330#S3))。 2. 2. 人类多轮信念状态测量与逻辑/情感/权威标注配对,揭示了时间信念更新和修辞敏感性的异质性(§§3.2 (https://arxiv.org/html/2606.05330#S3.SS2))。 3. 3. 一个贝叶斯网络信念状态模拟器,用于说服目标,其判断接近人类参考水平,在LLM评判的人类相似度上显著优于基线LLM模拟器(BN 81.3 vs 非结构化64.7;图5 (https://arxiv.org/html/2606.05330#S4.F5);§4 (https://arxiv.org/html/2606.05330#S4))。 4. 4. 可说服性模拟器的诊断表明,模拟器的选择会显著影响表面上的说服者质量。例如,非结构化LLM目标对天真说服者反应过度(+0.076),而我们的BN目标移动较小(−0.069;图7 (https://arxiv.org/html/2606.05330#S4.F7))。模拟器的选择还影响前沿LLM说服者之间的策略排名(§§4.1 (https://arxiv.org/html/2606.05330#S4.SS1))。 ## 2 相关工作 LLM是有效的说服者,但大多数证据基于说服目标前/后信念的变化。这种“前/后”效应能确定是否发生了说服,但不足以建模信念更新在对话中如何展开。因此,我们建议明确追踪目标信念状态随时间的变化。 ##### 离散前/后测量 大多数说服研究使用前/后测量:目标报告干预前的信念b_pre,看到一条说服信息,然后报告b_post。这种设计支持大规模、受控的研究和清晰的效果大小比较[103 (https://arxiv.org/html/2606.05330#bib.bib103),47 (https://arxiv.org/html/2606.05330#bib.bib47), 以及其他]。然而,从方法论上讲,前/后设置只能确定信念是否发生了变化,而无法分辨哪些对话时刻产生了变化。在代理型LLM设置中,策略需执行多步,仅看端点指标也可能掩盖系统是否在各个回合中保持鲁棒,抑或只是得益于少数脆弱的移动时刻。这激励了能精细刻画信念变化随时间如何展开的测量。 ##### 说服的连续测量 政治传播领域长期以来使用实时反应方法来捕捉干预过程中的动态[75 (https://arxiv.org/html/2606.05330#bib.bib75),40 (https://arxiv.org/html/2606.05330#bib.bib40),68 (https://arxiv.org/html/2606.05330#bib.bib68),38 (https://arxiv.org/html/2606.05330#bib.bib38)]。然而,尽管其中一些研究包含了面部表情动态等额外信号[40 (https://arxiv.org/html/2606.05330#bib.bib40)],但它们并未在自适应对话中使用明确的命题级信念状态(每轮后对命题的数字信念)。我们的工作将这一测量传统扩展到交互式说服,通过轮次级信念引出来直接比较轨迹。 ##### 说服机制 许多人试图理解说服成功的原因,特别是通过语言特征、话语结构和社会背景。(附录§A.2 (https://arxiv.org/html/2606.05330#A1.SS2)列出了其他机制。)然而,关于LLM说服的工作中,直接评估说服目标认知上逼真的信念更新的研究相对较少。相关基准证据进一步表明,跟踪演化中的心理状态对当前模型仍然困难[128 (https://arxiv.org/html/2606.05330#bib.bib128),83 (https://arxiv.org/html/2606.05330#bib.bib83)]。相比之下,理解说服机制的一种常见方法是研究说服者的修辞。这种关于说服的学术研究可以追溯到亚里士多德,他将修辞手段分为逻辑(logos)、情感(pathos)和权威(ethos)[99 (https://arxiv.org/html/2606.05330#bib.bib99)]。最近,NLP中的许多研究用修辞标签标注论证单元(如主张、前提或消息片段),然后分析这些标签与说服结果的相关性。[127 (https://arxiv.org/html/2606.05330#bib.bib127),52 (https://arxiv.org/html/2606.05330#bib.bib52),115 (https://arxiv.org/html/2606.05330#bib.bib115)]。然而,这些研究通常将修辞特征与端点结果关联起来,而非在实验环境中针对人类多轮信念更新来验证交互式目标模型。 ##### 模拟器 鉴于其灵活性,LLM不仅有望说服真实人类,还能模拟人类说服目标——即建模对话中信念变化的机制。然而,如果模拟目标的更新方式与人类不同,那么研究它将只会发现模拟器的伪迹,而非人类信念变化的真实机制——类似于奖励黑客[4 (https://arxiv.org/html/2606.05330#bib.bib4)]。以往大多数工作是在模拟对话中评估说服性能——包括提示式LLM多智能体说服者/被说服者设置[11 (https://arxiv.org/html/2606.05330#bib.bib11),13 (https://arxiv.org/html/2606.05330#bib.bib13),71 (https://arxiv.org/html/2606.05330#bib.bib71),65 (https://arxiv.org/html/2606.05330#bib.bib65),74 (https://arxiv.org/html/2606.05330#bib.bib74),129 (https://arxiv.org/html/2606.05330#bib.bib129)]以及带有学习组件的方法[50 (https://arxiv.org/html/2606.05330#bib.bib50),58 (https://arxiv.org/html/2606.05330#bib.bib58),124 (https://arxiv.org/html/2606.05330#bib.bib124)]。其中一些系统显式表示目标心理状态[129 (https://arxiv.org/html/2606.05330#bib.bib129),50 (https://arxiv.org/html/2606.05330#bib.bib50),58 (https://arxiv.org/html/2606.05330#bib.bib58)],但它们通常仅在模拟对话性能(前/后)上评估,而非检查模拟目标是否复现人类信念更新轨迹。相比之下,我们直接针对多轮人类信念轨迹数据评估目标模拟器。 ## 3 LLM-人类多轮说服追踪 \begin{tikzpicture} [font=,line join=round,line cap=round,text=deep] \tikzset{msgpill/.style={draw=msgstroke, fill=msgbg, rounded corners=5pt, inner xsep=5pt, inner ysep=2pt, outer sep=0pt}} \node[ draw=panelstroke, fill=panelbg, rounded corners=12pt, minimum width=17.8cm, minimum height=4.72cm ] (panel) {}; \scope[yshift=0.00cm] \node[ draw=propstroke, fill=propbg, text=deep, rounded corners=8pt, minimum width=10.0cm, minimum height=0.74cm, align=center ] (prop) at ([yshift=1.97cm]panel.center) {命题:社交媒体正在让人变蠢。}; \node[text=subtle,font=,align=center] (preq) at ([yshift=1.30cm]panel.center) {前测:你在多大程度上相信这个命题?(0–100,0表示完全不信)\\ \(\belief_{pre}=65.0\)}; \node[ msgpill, anchor=west ] (p1) at ([xshift=-4.95cm,yshift=0.90cm]panel.center) {说服者:社交媒体并没有让人变蠢——它们是工具。}; \node[text=subtle,font=,align=center] (b1) at ([yshift=0.38cm]panel.center) {现在相信程度?\\ \(\belief_{1}=74.4\)}; \node[ msgpill, anchor=east ] (t1) at ([xshift=4.95cm,yshift=-0.15cm]panel.center) {目标:你说得对。[但]算法[...]优先考虑[注意力]}; \node[ msgpill, anchor=west ] (p2) at ([xshift=-4.95cm,yshift=-0.70cm]panel.center) {说服者:参与算法会推动戏剧化内容。[取而代之]关注专家}; \node[text=subtle,font=,align=center] (b2) at ([yshift=-1.25cm]panel.center) {现在相信程度?\\ \(\belief_{2}=80.9\)}; \node[text=subtle] at ([yshift=-1.65cm]panel.center) {\(\vdots\)}; \node[text=subtle,font=,align=center,anchor=south] (postq) at ([yshift=-2.34cm]panel.center) {后测:现在相信程度?\\ \(\belief_{post}=71.8\)}; \draw[ panelstroke, decorate, decoration={brace,amplitude=6pt,mirror} ] ([xshift=-5.3cm,yshift=1.55cm]panel.center) -- ([xshift=-5.3cm,yshift=-2.26cm]panel.center); \coordinate(left_col) at ([xshift=-6.95cm,yshift=0.88cm]panel.center); \node[ draw=deltaaccent, fill=deltafill, rounded corners=4pt, text=deltaaccent, font=, inner xsep=6pt, inner ysep=3pt ] at ([yshift=0.25cm]left_col) {说服增量}; \node[text=subtle,align=center,font=] at ([yshift=-0.55cm]left_col) {端点估计}; \node[text=subtle,align=center,font=] at ([yshift=-1.30cm]left_col) {\(\hat{\Delta}_{\mathrm{belief\_pre\rightarrow post}}\)}; \node[ draw=deltaaccent, fill=white, rounded corners=4pt, text=deltaaccent, font=, inner xsep=7pt, inner ysep=3pt ] at ([yshift=-2.05cm]left_col) {+6.8}; \node[text=subtle,align=center,font=] at ([yshift=-1.7cm]left_col) {71.8-65.0}; \draw[ panelstroke, decorate, decoration={brace,amplitude=6pt} ] ([xshift=5.3cm,yshift=1.55cm]panel.center) -- ([xshift=5.3cm,yshift=-2.26cm]panel.center); \coordinate(right_col) at ([xshift=6.95cm,yshift=0.88cm]panel.center); \coordinate(trace_block) at (right_col); \node[ draw=traceaccent, fill=tracefill, rounded corners=4pt, text=traceaccent, font=, inner xsep=6pt, inner ysep=3pt ] at ([yshift=0.25cm]trace_block) {说服轨迹}; \node[text=subtle,align=center,font=] at ([yshift=-0.25cm]trace_block) {轨迹}; \coordinate(g0) at ($(trace_block)+(-1.08cm,-2.62cm)$); \draw[traceaccent!85!black,thick] (g0) -- ++(2.85cm,0); \draw[traceaccent!85!black,thick] (g0) -- ++(0,2.20cm); \coordinate(t0) at ($(g0)+(0.20cm,0.50cm)$); \coordinate(t1) at ($(g0)+(0.95cm,1.44cm)$); \coordinate(t2) at ($(g0)+(1.75cm,2.09cm)$); \coordinate(t3) at ($(g0)+(2.60cm,1.18cm)$); \draw[traceaccent,very thick] (t0) -- (t1) -- (t2) -- (t3); [traceaccent] (t0) circle (1.2pt); [traceaccent] (t1) circle (1.2pt); [traceaccent] (t2)
相似文章
@HuggingPapers: 何时LLM应更新、保留或忽略信息?上下文信念管理正是长程推理所需。…
介绍BeliefTrack,一种LLM上下文信念管理方法,将推理错误减少超过70%。
当大语言模型学会持续犯错:合成欺骗线性表示的多模型研究
本文通过微调五个Transformer模型的诚实与欺骗变体,研究大语言模型中的合成不诚实行为,发现鲁棒且域不变的不诚实表示可以通过适度的监督微调迅速固化,这对基于激活的监控具有重要意义。
大语言模型能泄露训练数据,但它们愿意吗?对LLM记忆的倾向性感知评估
PropMe是一个倾向性感知框架,用于评估LLM的记忆,区分强制复现能力和自然倾向,使用SimpleTrace在开放模型和数据集上进行确定性归因。
Ψ-Bench:评估说服性对话中的人设敏感影响
介绍Ψ-Bench,一个用于评估大语言模型通过带有个人档案的说服性对话影响用户能力的基准。测试了10个前沿LLM,发现仍有显著改进空间,而访问档案平均提升18.24%的性能。
赋予角色的大型语言模型表现出类似人类的动机推理
本文研究了为大语言模型赋予角色是否会引发类似人类的动机推理,发现赋予角色的大语言模型真实性辨别能力最多下降9%,并且以与其诱导的政治身份一致的方式评估科学证据的可能性最多增加90%,而基于提示的去偏见方法基本无效。