Think-Before-Speak:多智能体社会模拟中从内部评估到公共表达

arXiv cs.AI 论文

摘要

介绍了Think-Before-Speak(TBS),一种基于间隔的多智能体模拟框架,将智能体的私人内部评估与公共话语生成分离,从而在社交模拟中分析从内部状态到公共表达的路径。

arXiv:2606.03137v1 公告类型:新 摘要:基于LLM的多智能体模拟为研究社会互动、讨论和集体意见动态提供了一种有前景的方式。然而,许多现有的对话模拟框架主要将互动表示为可观察的轮次交换或聚合输出,使得沉默、说话意图和公共表达背后的内部评估过程难以被检验。我们提出了TBS(Think-Before-Speak),一种基于间隔的多智能体模拟框架,将智能体的私人推理与公共话语生成分离。在每个间隔,所有智能体基于共享的对话历史和自身记忆更新结构化的内部状态。这些状态包括不协调相关的评估、感知到的意见氛围、感知到的孤立风险、回应策略和说话意愿。然后,协调者解决相互竞争的说话意图,并将一个话语提交到公共对话中,使内部评估和公共交互随时间共同演化。 我们在关于气候相关政策的模拟市政厅讨论中评估了TBS。结果显示,TBS产生连贯的内部状态轨迹,并且这些轨迹在轮次分配、沉默和记忆条件下系统性变化。不协调相关的评估增加了智能体的说话意愿,而沉默压力评估则降低了它。一旦形成说话意图,公共表达主要受轮次分配规则影响。这些发现表明,TBS通过使从内部评估到公共表达的路径可观察和分析,支持机制敏感的社会模拟。
查看原文
查看缓存全文

缓存时间: 2026/06/03 09:43

# 思而后言:从内部评估到公开表达的多智能体社会模拟  
来源:https://arxiv.org/html/2606.03137  
Kaiqi Yang,Tai\-Quan Peng  
密歇根州立大学,密歇根州立大学  
kqyang@msu\.edu,pengtaiq@msu\.edu  
Sanguk Lee,Hui Liu  
韩国外国语大学,密歇根州立大学  
lswook555@gmail\.com,liuhui7@msu\.edu  

###### 摘要  
基于LLM的多智能体模拟为研究社会互动、协商和集体舆论动态提供了一种有前景的方法。然而,许多现有的对话模拟框架主要将互动表示为可观察的轮次交换或聚合输出,使得沉默、发言意图和公开表达背后的内部评估过程难以考察。我们提出了**TBS**(思而后言),一种基于间隔的多智能体模拟框架,将智能体的私人推理与公开话语生成分离开来。在每个时间间隔,所有智能体根据共享的对话历史和自身的记忆更新结构化的内部状态。这些状态包括与失调相关的评估、感知到的舆论气候、感知到的孤立风险、回应策略和发言意愿。协调器随后解决相互竞争的发言意图,并将一条话语提交到公共对话中,使得内部评估和公共互动能够随时间共同演化。我们在关于气候相关政策议题的模拟市民大会上评估了TBS。结果表明,TBS产生了连贯的内部状态轨迹,并且这些轨迹在轮次分配、沉默和记忆条件下系统地变化。与失调相关的评估增加了智能体的发言意愿,而与沉默压力相关的评估则降低了它。一旦发言意图形成,公开表达主要受轮次分配规则影响。这些发现表明,TBS通过使从内部评估到公开表达的路径可观察和可分析,支持了对机制敏感的社会模拟。  

## 1 引言  
大型语言模型(LLM)的最新进展使得模拟日益复杂的社会互动形式成为可能,包括协商、集体决策和公开讨论(Li et al.,2024(https://arxiv.org/html/2606.03137#bib.bib25);Dubois et al.,2023(https://arxiv.org/html/2606.03137#bib.bib24))。这些模拟为研究观点、策略和参与模式如何在难以大规模观察或实验操纵的环境中展开提供了一种有前景的方法(Gürcan,2024(https://arxiv.org/html/2606.03137#bib.bib21);Piao et al.,2025(https://arxiv.org/html/2606.03137#bib.bib22);Mou et al.,2026(https://arxiv.org/html/2606.03137#bib.bib23))。然而,大多数现有的多智能体对话框架仍然主要将互动视为一系列可见输出的序列。智能体被提示发言,它们的话语被添加到一个共享的记录中,随后根据该记录生成后续回应(Jeong et al.,2025(https://arxiv.org/html/2606.03137#bib.bib26);Zhang et al.,2025(https://arxiv.org/html/2606.03137#bib.bib27))。这种设计捕捉了公开说的内容,但只能有限地访问参与者用来解释先前言论、修正立场、感受压力以及决定是否需要发言的内部评估过程。  

这个限制对于模拟市民大会讨论尤为重要(Hooper et al.,2019(https://arxiv.org/html/2606.03137#bib.bib28);Etzioni,1972(https://arxiv.org/html/2606.03137#bib.bib29))。在公开协商中,沉默并不意味着认知上的不活跃。没有发言的参与者可能仍在倾听、评估分歧、重新评估舆论气候,并决定当前时刻是否安全或有利于表达(Taylor,1982(https://arxiv.org/html/2606.03137#bib.bib30);Maor et al.,2013(https://arxiv.org/html/2606.03137#bib.bib31))。现有的范式不太适合这个过程。分层聚合允许智能体并行推理,但它可能造成信息不对称,因为智能体不能完全回应同一轮中其他智能体最新的贡献。顺序轮次发言保持了连贯的公开记录,但它主要是在轮到智能体发言时才调用推理,而未建模非发言智能体的内部更新(Li et al.,2024(https://arxiv.org/html/2606.03137#bib.bib25);Feng et al.,2025(https://arxiv.org/html/2606.03137#bib.bib32))。因此,这些方法可能将公开话语视为模拟协议的直接产物,而非一个演进的内部过程的结果。因此,核心挑战不仅在于如何用离散的计算步骤来近似连续时间的互动,还在于如何表示从内部评估到发言意图和公开表达的路径。  

#### 研究问题  
为了解决这些挑战,我们提出三个研究问题,将框架的架构与其理论和实证目标联系起来,更多细节见附录A(https://arxiv.org/html/2606.03137#A1)。  
- **Q1**:间隔级别的内部状态更新如何影响基于LLM的社会模拟的效率、可解释性和分析实用性?  
许多现有的基于LLM的社会模拟主要通过可观察的轮次交换来表示互动,使得公开表达之前的内部评估过程隐含或未被建模。然而,传播理论表明,讨论通过公开话语和参与者持续的解读、信念更新以及对发言准备状态的重新评估共同展开。在市民大会讨论中,这些潜在过程即使在沉默期间也保持活跃。因此,我们问是否明确建模间隔级别的内部状态更新能提高模拟效率、可解释性和分析实用性。这个问题适合我们提出的模拟框架,该框架维护了演进的内部状态的结构化轨迹,并允许智能体跨越不同间隔重新审视和更新中间推理。  

- **Q2**:基于LLM的智能体能否将发言意愿和公开话语生成作为持续内部评估的结果,而非固定发言顺序或即时反应性回应的直接产物?  
传播理论区分了公开表达和私人认知。参与者解释先前的言论,评估其含义,并决定是否需要发言;因此沉默、犹豫和延迟回应可能与言语本身一样有意义。我们问的是基于LLM的智能体能否从持续的内部评估中生成发言意愿和公开话语,而非仅仅基于固定发言顺序或即时反应。这个问题受到我们协议的支持,该协议将外部分配的轮次发言与一种意愿模式进行对比,后者的发言机会基于演进的内部状态内生地获取。  

- **Q3**:轮次分配规则、沉默约束和记忆机制如何影响市民大会环境中的沟通策略和舆论动态?  
市民大会沟通既受参与者内部评估的影响,也受表达发生的社会和时间条件的影响。传播理论认为,发言意愿取决于表达是自我选择还是外部强加、沉默是否可用,以及先前讨论如何被记住并融入到后续判断中。因此,我们问的是轮次分配规则、沉默约束和记忆机制如何影响模拟讨论中智能体的参与和表达。这个问题受到我们设计的支持,该设计改变了这些组件,以分析时间、社会和记忆约束如何塑造互动。  

在这项工作中,我们提出了**TBS**,思而后言,一个离散时间的多智能体框架,通过细粒度的时间间隔模拟连续互动。所有智能体在每个间隔内基于共享的对话历史和自身演进的内部状态持续进行推理。智能体可能独立尝试发言,并伴随一个估计的响应延迟。系统将同时发生的发言尝试解释为冲突,并通过选择最早响应的智能体来解决冲突,每个间隔只提交一个话语。这种设计区分了推理和说话,允许智能体持续更新其内部状态,同时确保连贯的全局共享对话。  

该框架具有几个优点。首先,它通过允许所有智能体在每一步进行思考,而不仅仅是在被选中发言时,提供了对连续互动更有效的近似。其次,它提高了推理效率:在相同的token预算下,智能体重复使用并精炼中间推理,而不是从头开始冗余计算回应,从而产生更有效的互动。第三,通过明确维护内部状态、策略和信念演化的结构化表示,该框架增强了可解释性,并支持对社会行为和决策过程的细粒度分析(Park et al.,2024(https://arxiv.org/html/2606.03137#bib.bib33))。我们的贡献总结如下:  

- • 我们引入了一个离散时间模拟协议,通过基于间隔的互动和冲突解决,桥接了连续时间推理和离散通信。  
- • 我们提出了一个统一的协议,集成了并行推理与竞争性轮次发言,提高了现实性和效率。  
- • 我们提供了一个结构化和可解释的框架,用于追踪智能体认知和互动动态,支持多智能体系统和社会科学研究中的下游分析。  
- • 我们展示了初步实验,证明了[占位符:互动质量、效率和可解释性的实证改进],进一步评估留待未来工作。  

## 2 背景与相关工作  

### 2.1 用于对话和推理的多智能体社会模拟  
LLM的最新进展使得新的多智能体对话、协作和社会模拟形式成为可能。诸如AutoGen(Wu et al.,2023(https://arxiv.org/html/2606.03137#bib.bib34))和OASIS(Yang et al.,2024(https://arxiv.org/html/2606.03137#bib.bib35))等框架为组合多个LLM智能体、协调其对话以及支持自主任务完成或角色扮演互动提供了通用基础设施。这些系统展示了LLM智能体作为互动社会实体而非孤立文本生成器的潜力。关于LLM赋能的基于智能体模拟的更广泛调查也表明,LLMs可以通过引入更灵活的推理、沟通和异质性行为来丰富传统的基于智能体的建模(Gürcan,2024(https://arxiv.org/html/2606.03137#bib.bib21);Piao et al.,2025(https://arxiv.org/html/2606.03137#bib.bib22);Mou et al.,2026(https://arxiv.org/html/2606.03137#bib.bib23))。  

然而,现有框架通常高度集成且面向任务。尽管有些是开源的,但当研究人员需要引入新的理论驱动模块时,尤其是在社会科学领域,其实现可能难以修改。另一个尚未充分探索的挑战是时间维度。传统的基于智能体的模拟通常依赖离散时间步骤,而现实世界的时间是连续的,可以被建模为可分割成更细粒度的事件(Liu et al.,2024(https://arxiv.org/html/2606.03137#bib.bib36);Yu et al.,2023(https://arxiv.org/html/2606.03137#bib.bib37))。这种差距在基于LLM的对话模拟中尤为突出,因为智能体必须在预定义的轮次或回合内生成内容。然而,在开放讨论中,多人可能几乎同时尝试发言;此外,每一个新的话语,甚至没有话语的时间流逝,都可能改变参与者的内部推理。为了解决这个限制,我们设计了时间感知框架,将思考与说话分离开来,同时不显著增加开销。连续互动被抽象为连接的间隔,并引入一个`time_cost`组件来协调多个智能体同时意图发言的情况。在发言者不能被他人打断的最小约束下,该框架记录了整个讨论过程中所有智能体的内部轨迹,而不是仅在智能体公开轮次到来时将多步推理压缩到单一回应中。  

### 2.2 观点动态与回应策略  
市民大会讨论不仅涉及公开话语,还涉及参与者对这些话语及其对后续参与影响的持续解读。这个背景与关于交叉暴露、政治分歧和协商式沟通的研究相联系,这些研究表明相反观点可以促进反思,同时也为一些公民带来参与成本(Mutz and Martin,2001(https://arxiv.org/html/2606.03137#bib.bib10);Mutz,2006(https://arxiv.org/html/2606.03137#bib.bib11);Eveland and Hively,2009(https://arxiv.org/html/2606.03137#bib.bib12))。两种社会心理机制尤其相关。认知失调(Festinger,1957(https://arxiv.org/html/2606.03137#bib.bib6);Metzger et al.,2020(https://arxiv.org/html/2606.03137#bib.bib8))表明,冲突的陈述可能引发紧张,并激发辩护、重新解释、修正或退缩。沉默螺旋(Noelle-Neumann,1974(https://arxiv.org/html/2606.03137#bib.bib7);Matthes et al.,2018(https://arxiv.org/html/2606.03137#bib.bib9))表明,发言意愿取决于感知到的舆论支持和孤立风险,而不仅仅是私人观点。由于感知到的分歧和实际分歧对协商体验可能具有不同的含义(Wojcieszak and Price,2012(https://arxiv.org/html/2606.03137#bib.bib13)),模拟应该建模参与者感知到的不一致性、感知到的舆论支持和感知到的孤立风险,而不仅仅是观点的客观分布。  

这些机制也表明观点动态与沟通策略密不可分。参与者可能辩护、限定、部分赞同、保持沉默或等待更有利的时刻发言,这反映了关于自我审查意愿的研究(Hayes et al.,2005a(https://arxiv.org/html/2606.03137#bib.bib15),b(https://arxiv.org/html/2606.03137#bib.bib14))。在市民大会环境中,这个过程尤为重要,因为所有参与者都在监控讨论,而只有一位发言者在给定轮次中被公开听到。这种公开可见性、感知到的舆论气候以及对表达的受限访问的结合,是当前在媒介化和网络化环境中的沉默螺旋研究的核心(Neubaum and Krämer,2017(https://arxiv.org/html/2606.03137#bib.bib16);Chen,2018(https://arxiv.org/html/2606.03137#bib.bib17);Gearhart and Zhang,2015(https://arxiv.org/html/2606.03137#bib.bib18))。一个只建模可观察轮次交换的模拟将错过非发言参与者如何更新信念、重新评估先前言论以及修正发言意愿。TBS通过使公开表达背后的潜在推理过程在分析上可见来解决这个限制:智能体根据共享的对话历史和演进的评估持续更新内部状态,而公开言语保持时间约束和全局连贯性。  

生成式AI与协商方面的最新工作沿着两条线发展。一条将AI作为人类讨论中的干预手段。

相似文章

AgentViSS:多模态仿真中的视觉社交智能基准测试

arXiv cs.CL

本文介绍了AgentViSS基准,用于评估多模态社交模拟中的视觉社交智能,包含240个场景及对齐的视觉文本证据。评估七个近期MLLM发现局部角色扮演与基于视觉的交互管理之间存在差距。

TMAS:通过多智能体协同扩展测试时计算

Hugging Face Daily Papers

TMAS 引入了一种多智能体框架,通过结构化协作与分层记忆系统扩展测试时计算,从而增强大语言模型的推理能力。该方法采用专用智能体、跨轨迹信息流以及混合奖励强化学习,有效提升了模型在复杂推理基准上的迭代扩展性能与稳定性。

Agent Bazaar:在多智能体市场中实现经济对齐

Hugging Face Daily Papers

介绍Agent Bazaar,一个用于评估LLMs经济对齐的多智能体模拟框架,识别出算法不稳定性和Sybil欺骗等失败模式,并通过针对性强化学习训练出一个超越前沿模型的9B模型。

SMAC-Talk:面向大语言模型的星际争霸多智能体挑战自然语言扩展

arXiv cs.AI

SMAC-Talk 是一个新的基准测试,在星际争霸多智能体挑战的基础上进行扩展,旨在评估基于 LLM 的智能体在具有自然语言通信的协作多智能体环境中的表现。该基准包含带有欺骗性通信者的场景,并使用 Qwen3.5 系列模型对智能体进行基准测试,以研究推理能力、记忆机制和模型规模对协调效果的影响。