修订语境,转变模拟立场:审计基于LLM的在线讨论立场模拟
摘要
本文研究了基于LLM的在线讨论立场模拟如何对对话语境的反事实修订敏感,并提出了一个对比纯文本与多模态策略的审计框架。
查看缓存全文
缓存时间: 2026/06/05 14:08
论文页面 - 修订上下文,改变模拟立场:审计基于LLM的在线讨论立场模拟
Source: https://huggingface.co/papers/2606.06443
摘要
基于LLM的立场模拟在经历反事实修订时表现出上下文敏感性,纯文本和多模态方法在不同极化机制下均展现出稳健的立场转变。
大型语言模型(https://huggingface.co/papers?q=Large%20language%20models)越来越被用于模拟社交媒体用户,并推断个人在在线讨论中可能的回应。然而,目前尚不清楚这些模拟是否反映了精确的用户特定信念,还是对对话上下文中语义无关的变化高度敏感。在这项工作中,我们研究反事实上下文修订(https://huggingface.co/papers?q=counterfactual%20context%20revision)作为审计基于LLM的立场模拟(https://huggingface.co/papers?q=stance%20simulation)的框架。给定一个原始在线对话,我们首先推断目标用户针对特定话题的立场。然后,我们对对话上下文(https://huggingface.co/papers?q=conversational%20context)应用受控的修订策略,并在修订后的上下文中再次模拟用户的立场。我们比较纯文本修订策略与结合了表情包上下文的多模态策略,并评估两个主要的有效性指标,即平均方向性立场转变和立场转变率(https://huggingface.co/papers?q=stance%20transition%20rate)。结果显示,在纯文本和多模态策略中,在不同的极化偏好机制(https://huggingface.co/papers?q=polarization-preference%20mechanisms)下都出现了有效且稳健的立场转变。我们的研究贡献了一个评估框架,用于理解基于LLM的立场模拟(https://huggingface.co/papers?q=stance%20simulation)的上下文敏感性。更广泛地说,它凸显了使用LLM模拟在线舆论动态的前景和风险。
查看arXiv页面(https://arxiv.org/abs/2606.06443) 查看PDF(https://arxiv.org/pdf/2606.06443) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.06443)
引用本文的模型 0
没有模型链接此论文
在模型的README.md中引用arxiv.org/abs/2606.06443以从此页面链接。
引用本文的数据集 0
没有数据集链接此论文
在数据集的README.md中引用arxiv.org/abs/2606.06443以从此页面链接。
引用本文的空间 0
没有空间链接此论文
在空间的README.md中引用arxiv.org/abs/2606.06443以从此页面链接。
包含本文的收藏 0
没有收藏包含此论文
将此论文添加到一个收藏(https://huggingface.co/new-collection)以从此页面链接。
相似文章
LLM辅助的科学话语立场检测:以贝叶斯认知科学为案例研究
本文提出了一种利用LLM进行科学话语立场检测的方法,具体用于识别贝叶斯认知科学文章中现实主义与工具主义的对立立场。该方法结合了理论驱动编码、专家标注和提示优化,实现了高可靠性。
信念引擎:多智能体LLM协商中可配置且可检查的立场动态
本文介绍了信念引擎(Belief Engine),这是一种为LLM智能体设计的可审计信念更新层,通过将信念视为具有显式更新规则的证据状态,使得多智能体协商中的立场变化变得可配置且可检查。
协商幻觉:多智能体大语言模型协商中的事实损耗与立场同质化诊断
本文识别了多智能体大语言模型系统中的'协商幻觉',即讨论导致事实损耗和立场同质化,并引入DelibTrace来测量这些现象,表明在协商过程中高达72%的关键事实可能丢失。
超越怀疑:用自适应教学警戒框架评估LLM的教学意图推理能力
本文介绍了自适应教学警戒(APV)框架,用于评估LLM在教学交流中推理教学意图的能力。该框架采用贝叶斯推理,并展示了GPT-4o和Claude 3.5等模型在区分教学内容方面的改进。
你在说我的语言吗?关于多模态大语言模型中的口语遵循问题
本文解决了多模态大语言模型在ASR中的口语遵循问题,提出了一种软提示方法和新颖的度量标准来量化语言违规。它评估了三种缓解策略——零样本提示、监督微调和思维链推理——在多种语言上的效果,以提高转录保真度。