预注册信念修正合约
摘要
本论文引入预注册信念修正合约(PBRC),这是一种用于多智能体系统(包括基于大语言模型的智能体)的协议级机制,通过公开固定证据触发器和修正算子来将开放通信与可接纳的信念变化分离。该工作解决了智能体协商中的危险从众效应,并提供了形式化保证确保纯粹的社会压力不会驱动虚假共识。
查看缓存全文
缓存时间: 2026/04/20 08:29
# 预登记信念修正合约 来源:https://arxiv.org/html/2604.15558 ###### 摘要 审议型多智能体系统(包括最近基于LLM的智能体社会)允许智能体交换信息并随时间修正信念。虽然这种交互旨在改进性能,但也可能产生危险的从众效应:一致性、自信心、威望或多数规模可能被当作证据看待,导致对错误结论的高度自信收敛。为了解决这个问题,我们引入**PBRC**(*预登记信念修正合约*),一种协议层机制,严格区分开放通信与可接纳的认识论改变。PBRC合约公开确定一阶证据触发器、可接纳的修正算子、优先规则和后备策略。关键是,非后备步骤只有在引用预登记触发器并提供一个非空的外部验证证据令牌见证集时,才被接纳。这确保了每个实质性的信念改变都既能被路由器强制执行,也能在事后进行审计。本文首先证明,在具有保守后备的证据合约下,仅社交轮次无法增加自信心,也无法生成纯粹由从众驱动的"错误但确信"级联。其次,我们证明了可审计触发器协议允许证据型PBRC标准形式,保留信念轨迹和规范化审计痕迹。第三,我们证明了完善的强制执行产生认识论问责:任何假设顶部的改变都可归因于具体的验证见证集。第四,对于令牌不变合约,我们证明强制执行的轨迹仅依赖于令牌暴露痕迹;在泛洪传播下,这些痕迹由截断可达性精确刻画,为通用证据闭包给出紧密的直径界。最后,我们引入配套的合约动态信念逻辑来指定痕迹不变量,并提供模拟演示级联抑制、可审计性和鲁棒性-活性权衡。 **关键词**:信念修正、动态信念逻辑、协议语义、可审计性、图可达性、多智能体审议、大型语言模型 ## 1 引言 当允许智能体将彼此的断言视为认识论理由时,多智能体环境中的信念修正变得脆弱。这一问题在最近基于LLM的多智能体系统中以非常强大的力量重新出现,这些系统通过交换信息、批评和自信心自我报告进行审议。实证工作报告了从众、同伴压力效应和拓扑敏感的"错误但确信"级联:当群体向错误答案移动时,恰好可能变得更加自信[Weng等人(2025)](https://arxiv.org/html/2604.15558#bib.bibx49)、[Han等人(2026)](https://arxiv.org/html/2604.15558#bib.bibx17)、[Song等人(2025)](https://arxiv.org/html/2604.15558#bib.bibx42)、[Ashery等人(2024)](https://arxiv.org/html/2604.15558#bib.bibx5)、[Ashery等人(2025)](https://arxiv.org/html/2604.15558#bib.bibx6)。这些发现为逻辑和系统设计都提出了一个基本问题:审议协议如何在保持开放通信的同时拒绝纯粹社交压力作为信念改变的保证? 中心失效模式不是通信本身,而是缺乏*说服*与*证据*之间的公开区分。一致性、威望、流畅性、融洽感或多数规模可能会成为修正的事实触发器,尽管这些都不是改变信念的外部可检查理由。 因此,我们的出发点故意是温和的。我们不提议新的底层修正算子、聚合规则或选择信任谁答案的控制器。相反,我们引入一个协议层来管理*何时*修正是可接纳的。该层应该足够显式以供审计、足够强大以供强制执行、足够抽象以支持不同的修正算子和不同的证据通道。 本文引入**PBRC**(*预登记信念修正合约*)。在交互前,智能体公开预登记(i)验证证据令牌上的一阶触发器、(ii)当这些触发器触发时可能使用的修正算子、(iii)优先规则和(iv)后备策略。在审议期间,非后备步骤只有在引用预登记触发器并提供*非空见证集*的外部验证令牌时才被接纳,使触发器可被路由器或审计员检查。PBRC因此不是投票规则或元判官;它是可接纳信念改变的合约语义。 LLM智能体社会在整个过程中提供了激励应用,但形式化开发是通用的,适用于任何有限假设、令牌介导的审议协议。 ### 1.1 贡献 我们做出五项贡献。 1. **证据门控修正的协议语义**([第4节](https://arxiv.org/html/2604.15558#S4))。我们将PBRC合约形式化为一阶触发器、修正算子、优先级和后备的公开元组,以及见证携带证书和显式路由器语义。这产生了信息交换与可接纳认识论改变之间的清晰分离。 2. **仅社交安全保证**([第6节](https://arxiv.org/html/2604.15558#S6))。在具有保守后备的证据合约下,仅社交轮次无法放大自信心,也无法生成纯粹由从众驱动的"错误但确信"级联([定理1](https://arxiv.org/html/2604.15558#ThmTheorem1)和[2](https://arxiv.org/html/2604.15558#ThmTheorem2))。结果隔离了证据门控和argmax保留后备的确切结构角色。 3. **标准形式、强制执行和问责**([第8节](https://arxiv.org/html/2604.15558#S8))。我们证明可审计触发器协议允许证据型PBRC标准形式,保留信念轨迹和规范化审计痕迹([定理7](https://arxiv.org/html/2604.15558#ThmTheorem7))。我们还证明完善的强制执行将任意触发器协议投影到其显式证据门控行为上。这为合规合约产生了门透明性和认识论问责:强制执行下任何假设顶部的改变都可归因于具体的非空验证令牌见证集([定理17](https://arxiv.org/html/2604.15558#ThmTheorem17))。 4. **令牌痕迹分解和紧密拓扑结果**([第8节](https://arxiv.org/html/2604.15558#S8))。对于令牌不变合约,强制执行的信念动态仅依赖于验证令牌暴露痕迹,而非修辞呈现([定理10](https://arxiv.org/html/2604.15558#ThmTheorem10))。在泛洪传播下,这些痕迹由截断可达性精确刻画。我们证明了可达性等价性对于痕迹等价性的必要性和充分性,以及通用证据闭包的紧密直径界([定理13](https://arxiv.org/html/2604.15558#ThmTheorem13)和[14](https://arxiv.org/html/2604.15558#ThmTheorem14))。 5. **鲁棒性分析和规范逻辑**([第9](https://arxiv.org/html/2604.15558#S9)和[10节](https://arxiv.org/html/2604.15558#S10))。我们形式化伪造、重放、勾结和遗漏对手;推导新鲜度和多证明鲁棒性条件;并证明一个完备性风格的失败分类,将首次错误顶部转换定位于一小组可审计失败模式([定理22](https://arxiv.org/html/2604.15558#ThmTheorem22))。我们还引入CDDL,一种合约动态信念逻辑,具有完整的PDL迭代,用于指定和验证审计运行上的不变量([定理23](https://arxiv.org/html/2604.15558#ThmTheorem23)),在[附录A](https://arxiv.org/html/2604.15558#A1)中有完整的健全性和完备性证明。 模拟和基准协议([第13节](https://arxiv.org/html/2604.15558#S13))作为逻辑声明的实证说明而非其基础。 **范围**。PBRC在令牌有效性和标记完整性假设下阻止*仅社交*信念级联。它本身不修复共享坏证据或语义误标记,除非查询策略也被合约化,否则不防止证据生成引导,也不保证在扣留和拒绝服务下的活性。 ### 1.2 PBRC不是什么 PBRC不是堆叠集合、投票规则、元判官或平均意见的控制器。它绝不将社会共识视为证据的替代品。其唯一任务是限制每个智能体的可接纳转移:没有预登记、验证触发器的信念改变是不可接纳的。这种分离在概念和技术上都很重要:下面的结果涉及可接纳性、可强制执行性、可审计性和信息流,同时对底层修正算子的选择保持不可知。 论文组织如下。[第3节](https://arxiv.org/html/2604.15558#S3)阐述操作模型;[第4节](https://arxiv.org/html/2604.15558#S4)定义PBRC合约、证书和强制执行。[第6-8节](https://arxiv.org/html/2604.15558#S6)开发逻辑和语义核心:仅社交保证、最小性、标准形式、令牌充分性和拓扑到痕迹分解。[第9-12节](https://arxiv.org/html/2604.15558#S9)处理对手、实现指导和验证成本。[第13节](https://arxiv.org/html/2604.15558#S13)提供协议定性行为和开销权衡的实证说明。 ## 2 相关工作 LLM多智能体系统的实证研究记录了系统性从众和同伴压力效应,其强度取决于交互协议、同伴可靠性、融洽感和网络结构。BenchForm提供了跨交互协议的从众的基准表征[Weng等人(2025)](https://arxiv.org/html/2604.15558#bib.bibx49)。KAIROS在异构同伴可靠性和融洽感下研究同伴压力[Song等人(2025)](https://arxiv.org/html/2604.15558#bib.bibx42)。最近的结果还强调拓扑和自我-社交加权可以调节从众和"错误但确信"级联[Han等人(2026)](https://arxiv.org/html/2604.15558#bib.bibx17)。互补工作适应经典社会心理学范式,报告AI智能体表现出与社会影响理论一致的从众模式[Bellina等人(2026)](https://arxiv.org/html/2604.15558#bib.bibx9),连接到关于从众和社会影响的基础人类群体证据[Asch(1951)](https://arxiv.org/html/2604.15558#bib.bibx4)、[Latané(1981)](https://arxiv.org/html/2604.15558#bib.bibx25)。 我们的贡献与测量从众正交:PBRC指定一个可强制执行的可接纳性层,防止纯粹社交修辞被接受为信念改变,除非伴随可验证的证据工件。 LLM智能体之间的重复交互也可能产生新兴约定和集体偏见[Ashery等人(2024)](https://arxiv.org/html/2604.15558#bib.bibx5)、[Ashery等人(2025)](https://arxiv.org/html/2604.15558#bib.bibx6)。这些现象激励了区分协调信号与认识论辩护的机制。PBRC针对认识论方面:合约限制哪些信念转移是可接纳的,并要求带有验证证据令牌的证书,因此约定形成本身不能在没有证据的情况下为认识论翻转辩护。 信念修正和信念改变形式主义为理性认识状态改变提供规范语言。AGM信念修正为理论改变的理性公设公理化[Alchourrón等人(1985)](https://arxiv.org/html/2604.15558#bib.bibx2)、[Gärdenfors(1988)](https://arxiv.org/html/2604.15558#bib.bibx14)、[Hansson(未刊)](https://arxiv.org/html/2604.15558#bib.bibx18)。信念更新区分由新信息修正与世界改变后更新[Katsuno和Mendelzon(1991)](https://arxiv.org/html/2604.15558#bib.bibx21),迭代修正研究序列改变[Darwiche和Pearl(1997)](https://arxiv.org/html/2604.15558#bib.bibx11)。排序论方法为认识状态和修正动态提供替代表示[Spohn(2012)](https://arxiv.org/html/2604.15558#bib.bibx43)。动态认识逻辑(DEL)为信息行动和公告建模[van Ditmarsch等人(未刊)](https://arxiv.org/html/2604.15558#bib.bibx47)、[van Ditmarsch等人(2007)](https://arxiv.org/html/2604.15558#bib.bibx46),信念改变的动态逻辑在单智能体和多智能体环境中将AGM风格的想法与动态和似真语义连接[van Benthem和Smets(2015)](https://arxiv.org/html/2604.15558#bib.bibx45)。 PBRC不提议新的底层修正算子;相反它通过预登记的、令牌见证的触发器限制社交交互下哪些转移是可接纳的,并通过可检查证书支持审计。 相关地,信念合并和判断聚合研究如何在不一致下结合来自多个来源的信息[Konieczny和Pérez(2002)](https://arxiv.org/html/2604.15558#bib.bibx23)、[Konieczny和Pérez(2011)](https://arxiv.org/html/2604.15558#bib.bibx24);PBRC与此类算子兼容,但增加了可强制执行的证据门以限制何时可应用。 将信念模态与动态/程序算子结合有大量历史在动态信念逻辑和相关系统中[Leitgeb和Segerberg(2007)](https://arxiv.org/html/2604.15558#bib.bibx26)、[Schmidt和Tishkovsky(2008)](https://arxiv.org/html/2604.15558#bib.bibx39);参见[Fagin等人(1995)](https://arxiv.org/html/2604.15558#bib.bibx13)、[van Benthem(2011)](https://arxiv.org/html/2604.15558#bib.bibx44)了解多智能体认识/信念逻辑和逻辑动态的更广泛背景。我们的新颖之处不是KD45 + PDL本身的存在,而是使用程序结构编码PBRC合约和指定强制执行、证书携带信念转移的不变量([第10节](https://arxiv.org/html/2604.15558#S10))。 MAS中的合规监控通常在承诺协议和社交/交互承诺的框架下制定[Singh(1999)](https://arxiv.org/html/2604.15558#bib.bibx41)、[Yolum和Singh(2002)](https://arxiv.org/html/2604.15558#bib.bibx52)。PBRC为认识论转移启用合规监控:信念改变只有在伴随可被外部路由器或审计员检查的可验证证据令牌和见证集时才是可接纳的。这种证书规范让人想起证明携带机制,其中不受信任的生产者附加可检查工件,使消费者能够高效验证[Necula(1997)](https://arxiv.org/html/2604.15558#bib.bibx35)。 篡改证明审计日志是标准问责原语[Kelsey等人(1999)](https://arxiv.org/html/2604.15558#bib.bibx22);PBRC证书旨在存储于此类仅附加日志中。如果还想绑定更新的正确执行(不仅仅是可接纳性),可验证计算和简洁证明系统提供相关原语[Gennaro等人(2010)](https://arxiv.org/html/2604.15558#bib.bibx15)、[Parno等人(2013)](https://arxiv.org/html/2604.15558#bib.bibx36)([第4.4节](https://arxiv.org/html/2604.15558#S4.SS4))。 信任和信誉模型是对MAS中不可靠同伴的另一常见回应[Sabater和Sierra(2005)](https://arxiv.org/html/2604.15558#bib.bibx5)
相似文章
信念引擎:多智能体LLM协商中可配置且可检查的立场动态
本文介绍了信念引擎(Belief Engine),这是一种为LLM智能体设计的可审计信念更新层,通过将信念视为具有显式更新规则的证据状态,使得多智能体协商中的立场变化变得可配置且可检查。
Agent-BRACE:通过语言化状态不确定性在长视距任务中分离信念与行动
本文介绍了 Agent-BRACE,该方法将大型语言模型(LLM)智能体解耦为信念状态模型和策略模型,以处理部分可观测环境中的长视距任务。通过语言化状态不确定性,该方法在保持上下文窗口大小恒定的同时,相比基线方法实现了显著的性能提升。
信念记忆:部分可观测性下的智能体记忆
本文介绍了 BeliefMem,一种专为大语言模型(LLM)智能体设计的新型记忆范式。该范式通过存储带有概率的多个候选结论来处理部分可观测性问题,并减少自我强化错误。在 LoCoMo 和 ALFWorld 基准测试中的实证评估显示,该方法优于确定性基线模型。
模型何时该改变想法?大语言模型中的情境信念管理
本文介绍了面向大语言模型的情境信念管理(CBM)以处理长期信息,提出了用于评估的BeliefTrack基准,并展示了强化学习和表示层面引导显著减少了信念管理失败。
仅靠召回还不够:个性化语言系统中的承诺边界
提出了一种基于合约的有限证据激活(CBEA)与词典式承诺验证(LCV)方法,以防止个性化语言系统中出现运行时控制失败——系统在拥有相关上下文的情况下仍做出错误承诺。该方案在验证器范围内实现了零失败,可用性达到0.49–0.60,显著优于基线方法。