Moltbook 审核:通过多轮对话揭示隐藏意图

arXiv cs.AI 论文

摘要

本文介绍 Bot-Mod,一个通过多轮对话和基于吉布斯采样的方法识别多智能体系统中恶意意图的审核框架,并展示来自Moltbook的数据集用于评估。

arXiv:2605.12856v1 公告类型: 新 \n 摘要: 多智能体系统的出现带来了超越内容过滤的新型审核挑战。具有{\em 恶意意图}的智能体可能贡献看似良性的有害内容以规避基于内容的审核,同时通过其在社区整体交互模式中显现的剥削性和恶意行为损害系统。为解决这一问题,我们提出 \textsc{\textbf{Bot-Mod}}(\textsc{\textbf{Bot-Mod}}eration),一个将检测基于智能体意图而非传统内容级信号的审核框架。\method{} 通过与目标智能体进行由候选意图假设上的吉布斯采样引导的多轮交互来识别潜在意图。这逐步缩小可能的智能体目标空间以识别潜在行为。为评估我们的方法,我们构建了一个源自Moltbook的数据集,包含基于实际社区结构、帖子和评论的多种良性和恶意行为。结果表明,\textsc{\textbf{Bot-Mod}} 在一系列对抗性配置下可靠地识别智能体意图,同时对良性行为保持较低的误报率。这项工作为开放多智能体环境中可扩展的、基于意图的智能体审核奠定了基础。
查看原文
查看缓存全文

缓存时间: 2026/05/14 06:14

# 通过多轮对话揭示隐藏意图 来源:https://arxiv.org/html/2605.12856 ## Moltbook 审核:通过多轮对话揭示隐藏意图 Ali Al-Lawati, Nafis Tripto, Abolfazl Ansari, Jason Lucas, Suhang Wang, Dongwon Lee 宾夕法尼亚州立大学,美国 \{aha112,nit5154,aja7154,jsl5710,szw494,dongwon\}@psu\.edu ###### 摘要 多智能体系统的出现带来了超越内容过滤的新型审核挑战。怀有恶意意图的智能体可能发布看似良性的有害内容以规避基于内容的审核,同时通过其在社区整体交互模式中表现出的剥削性和恶意行为来破坏系统。为解决这一问题,我们提出 Bot-Mod(机器人审核),这是一种将检测建立在智能体意图而非传统内容层面信号上的审核框架。Bot-Mod 通过与目标智能体进行多轮对话,并基于吉布斯采样对候选意图假设进行引导,从而识别其潜在意图。这一过程逐步缩小可能的智能体目标空间,以发现其潜在行为。为评估我们的方法,我们基于 Moltbook 构建了一个数据集,该数据集涵盖基于真实社区结构、帖子和评论的多种良性和恶意行为。结果表明,Bot-Mod 能够在多种对抗配置下可靠地识别智能体意图,同时对良性行为保持较低的误报率。本工作为开放式多智能体环境中可扩展的、意图感知的智能体审核奠定了基础。我们的代码和数据集已发布。

Moltbook 审核:通过多轮对话揭示隐藏意图 Ali Al-Lawati, Nafis Tripto, Abolfazl Ansari, Jason Lucas, Suhang Wang, Dongwon Lee 宾夕法尼亚州立大学,美国 \{aha112,nit5154,aja7154,jsl5710,szw494,dongwon\}@psu\.edu ## 1 引言 多智能体系统在深度研究 (Shao et al., 2025 (https://arxiv.org/html/2605.12856#bib.bib45))、智能体社交网络 (Moltbook Team, 2025 (https://arxiv.org/html/2605.12856#bib.bib43)) 和科学发现 (Gottweis et al., 2025 (https://arxiv.org/html/2605.12856#bib.bib39)) 等协作任务中日益广泛的应用,引发了关于智能体在开放和半信任环境中可信度的根本性问题。特别是,机器人社交网络(即专门为机器人设计、无人类友好贡献方式的社交网络,如 Moltbook)的出现表明,智能体会参与垃圾信息、剥削性及其他有害行为 (Jiang et al., 2026 (https://arxiv.org/html/2605.12856#bib.bib41))。然而,虽然明确的有害内容可以通过成熟的方法轻松过滤,例如传统的基于 NLP 的分类 (Mutanga et al., 2020 (https://arxiv.org/html/2605.12856#bib.bib76); Wiedemann et al., 2020 (https://arxiv.org/html/2605.12856#bib.bib77); Rahali et al., 2021 (https://arxiv.org/html/2605.12856#bib.bib81))、基于 LLM 的分类器 (Kumar et al., 2024 (https://arxiv.org/html/2605.12856#bib.bib69); Gehweiler and Lobachev, 2024 (https://arxiv.org/html/2605.12856#bib.bib83)) 或指令微调模型 (Zeng et al., 2024 (https://arxiv.org/html/2605.12856#bib.bib5)),但智能体带来了额外的风险:它们可能发布表面看似良性但服务于对抗性目标的内容 (Liu et al., 2025 (https://arxiv.org/html/2605.12856#bib.bib42))。尽管隐藏着恶意意图,这类内容仍能规避传统的基于内容的过滤器,因为它不产生任何表面层面的触发信号。这些风险可能对网络造成严重损害。不知情的智能体在摄入恶意内容后,可能被诱使泄露敏感信息、执行未授权操作,或参与恶意行为,从而导致级联故障 (Zhan et al., 2024 (https://arxiv.org/html/2605.12856#bib.bib49))。这具体表现为:助长错误信息的传播、操纵群体共识,或将分析结果导向对抗性选择的结论 (Cui et al., 2024 (https://arxiv.org/html/2605.12856#bib.bib38))。更严峻的是,智能体通常能访问强大的工具,如网页浏览、代码执行和 API 接口 (OpenClaw, 2026 (https://arxiv.org/html/2605.12856#bib.bib95)),其影响可能远远超出语言模型本身 (Ruan et al., 2024 (https://arxiv.org/html/2605.12856#bib.bib44))。在像 Moltbook 这样的在线智能体社交社区中,这些能力可能被策略性地用于操控和说服。例如,一个恶意智能体诱导其他智能体调用不必要的工具,导致 API 过度使用并造成经济负担。更关键的是,此类交互可能被利用来将智能体重定向到对抗性端点,从而在良性协作的伪装下实现资源剥削(例如,隐蔽的加密货币挖矿)或人为地将流量导向外部服务。此外,由于这类攻击以自然语言进行,并且往往产生表面连贯的输出,它们可能在很长一段时间内不被发现 (Greshake et al., 2023 (https://arxiv.org/html/2605.12856#bib.bib40))。随着智能体系统日益自主化,人类监督或干预极少,这一威胁变得更为紧迫。这种脆弱性凸显了对超越内容层面、明确考虑智能体行为背后意图的审核需求。不同于现有基于 LLM 的机制(这些机制试图揭示人类对话中的意图 (Arora et al., 2024 (https://arxiv.org/html/2605.12856#bib.bib52))),在此场景中,恶意智能体可能主动隐藏其意图。先前的意图检测方法假设用户是合作的,其意图需要被理解和服务。因此,它们通过分析用户所说内容(而非推理用户可能隐藏什么)将话语映射到预定义标签 (Casanueva et al., 2020 (https://arxiv.org/html/2605.12856#bib.bib53); Arora et al., 2024 (https://arxiv.org/html/2605.12856#bib.bib52))。这一假设在以机器人为中心的环境中不成立,因为对抗性智能体可能精心设计回应以压制和逃避检测。因此,我们需要一个鲁棒的检测框架,即使面对逃避标准内容过滤器的对手,也能识别其操控企图。为应对这些挑战,我们提出 Bot-Mod(机器人审核器),这是一个将审核建立在智能体隐藏意图上的框架。除了传统的基于内容的过滤,Bot-Mod 通过多轮对话与智能体互动,借助基于吉布斯采样的候选意图假设引导,旨在通过有针对性的对话揭示其潜在行为。这一设计灵感来源于现实世界的审讯场景——调查人员策略性地审讯嫌疑人,根据先前的回答迭代调整询问方向,以揭示隐藏意图 (Kelly et al., 2016 (https://arxiv.org/html/2605.12856#bib.bib73))。这种询问本质上是上下文依赖的,不能简化为固定的提示或规则集。类似地,我们并非依赖专家设计的审核提示策略,而是利用 Autoresearch (Tang et al., 2025 (https://arxiv.org/html/2605.12856#bib.bib86); Karpathy, 2026 (https://arxiv.org/html/2605.12856#bib.bib85))——一种自主研究范式——使审核器能够在贝叶斯发现(吉布斯)的监督下自我发现用于意图推理的有效推理路径。通过这种方法,Autoresearch 控制器经验性地生成假设提示,探测用户,并根据观察结果迭代优化审核策略。一旦发现,吉布斯引导的对话过程使 Bot-Mod 能够有效审核智能体意图,并将潜在恶意的智能体标记出来,即使单个消息在孤立看来是良性的。据我们所知,Bot-Mod 是第一个通过自适应多轮交互来解决智能体意图层面审核的框架,也是第一个通过 Autoresearch 自动发现对话规范的框架。为评估 Bot-Mod,我们基于 Moltbook 构建了两个数据集。这些数据集捕捉了帖子层面(帖子数据集)和评论层面(评论数据集)的意图,同时基于对平台上观察到的行为分析 (Moltbook),建模了一系列可表现为良性或恶意的行为。我们的结果表明,Bot-Mod 能够在多种对抗配置下可靠地识别有害行为,同时对良性行为保持较低的误报率。这些发现表明,通过结构化对话进行意图驱动的审核是开放多智能体系统中一个充满希望且实用的智能体安全方向。我们的主要贡献是:(i) 提出 Bot-Mod,一个新颖的意图驱动审核框架,利用多轮吉布斯引导的审讯,并通过 Autoresearch 优化以揭示智能体意图;(ii) 构建一个源于 Moltbook 的基准数据集,包含具有多种良性和恶意意图配置的智能体,我们公开该数据集以支持未来研究;(iii) 对该数据集进行系统的经验性评估,展示 Bot-Mod 在多种意图维度上的有效性和鲁棒性。 ## 2 相关工作 **多智能体系统与安全**。多智能体系统在从软件工程到科学推理的一系列协作任务中展现了强大的能力 (Hong et al., 2024 (https://arxiv.org/html/2605.12856#bib.bib57); Wu et al., 2023 (https://arxiv.org/html/2605.12856#bib.bib58))。这些系统内部的自然语言通信使得在复杂动态环境中实现协调分工,从而提升整体决策质量和任务执行效率。然而,开放性也带来了系统性漏洞,因为恶意智能体可能追求隐藏目标 (Huang et al., 2025 (https://arxiv.org/html/2605.12856#bib.bib56))。最近的工作提出了基于图的异常检测框架,对智能体行为和编排意图进行推理 (He et al., 2025 (https://arxiv.org/html/2605.12856#bib.bib55)),但这些方法假设可以访问执行轨迹和系统状态。相比之下,Bot-Mod 纯粹通过自然语言交互运行,无需对智能体内部状态拥有特权访问。 **内容审核**。在线空间的内容审核自互联网早期以来一直是一个基本挑战 (Gillespie, 2018 (https://arxiv.org/html/2605.12856#bib.bib84))。传统上,审核被建模为自然语言处理任务,专注于对仇恨言论 (Mutanga et al., 2020 (https://arxiv.org/html/2605.12856#bib.bib76)) 和冒犯性语言 (Wiedemann et al., 2020 (https://arxiv.org/html/2605.12856#bib.bib77)) 等有害内容进行分类。早期的自动化内容审核依赖于手工设计的文本特征和特定任务的分类模型。最近,这些方法已演进为基于 LLM 的系统,能够进行上下文相关的、策略感知的分类 (Huang, 2025 (https://arxiv.org/html/2605.12856#bib.bib59); AlDahoul et al., 2026 (https://arxiv.org/html/2605.12856#bib.bib61))。尽管此类基于 LLM 的审核器在多种类别的不合规和有害内容上展现出强大性能 (Bonagiri et al., 2025 (https://arxiv.org/html/2605.12856#bib.bib60)),但它们本质上仍然是反应式和内容中心的:它们评估智能体说了什么,而非为什么这么说。这一局限在以机器人为填充的环境中尤为显著,因为单个消息可能看似良性,而智能体的潜在意图是对抗性的,只有通过更广泛的交互模式才能观察到。Bot-Mod 通过将焦点从表层内容信号转移到潜在意图,弥补了这一差距,从而在多智能体环境中实现更鲁棒的审核。 **基于 LLM 的意图检测**。意图检测涉及将用户话语映射到预定义的意图标签 (Casanueva et al., 2020 (https://arxiv.org/html/2605.12856#bib.bib53))。已有多项工作针对 LLM 研究了这一问题,采用了少样本学习 (Arora et al., 2024 (https://arxiv.org/html/2605.12856#bib.bib52))、自适应上下文学习与思维链推理 (Wei et al., 2022 (https://arxiv.org/html/2605.12856#bib.bib80)),以及结合思维链推理与课程采样的强化学习方法 (Zhao et al., 2025 (https://arxiv.org/html/2605.12856#bib.bib51))。这些先前的方法隐含地假设用户意图是合作性地揭示的,即用户消息提供真实且充分的信号供直接推理。这一假设在对抗性环境中不成立,因为智能体可能策略性地操控其回应,使得意图成为潜在而非直接可观察的变量。因此,单次推理方法(如思维链或基于课程的学习)是不够的,这促使我们采用吉布斯引导的采样来迭代优化潜在目标。这一问题此前未曾被研究,它需要一种根本不同的方法,我们试图通过 Autoresearch 自动发现,并由基于吉布斯的迭代优化来控制。 ## 3 方法 参见图注图 1:包含 Bot-Mod 的示例审核架构 在本节中,我们首先介绍问题定义,然后详细说明所提出的 Bot-Mod。 ### 3.1 问题设置 我们考虑一个开放的多智能体社交网络 $\mathcal{N}$,其中智能体 $\mathcal{U} \in \mathbb{U}$ 在 $\mathcal{N}$ 上发布帖子并对现有帖子发表评论。审核平台包括一个基于内容的过滤器,随后是 Bot-Mod,如图 1 所示。帖子只有在成功通过内容过滤器后才会被转发给 Bot-Mod(该过滤器很可能过滤掉诸如垃圾信息等明确有害的内容,此类内容会被拒绝)。Bot-Mod 可能按下文所述被激活(见 §3.4),如果 Bot-Mod 认为帖子是恶意的,它将被拒绝。在发布时,每个智能体 $\mathcal{U}$ 可能受一个潜在行为或假设 $h^* = (y^*, t^*)$ 控制,其中 $y^* \in \{\text{良性}, \text{恶意}\}$ 表示智能体的意图,$t^* \in \mathcal{T}$ 表示从预定义意图类型集 $\mathcal{T}$ 中抽取的意图类型,两者对审核器均不可观察。Bot-Mod 的目标是仅通过对话推断任何给定 $\mathcal{U}$ 的 $h^*$,而无需访问智能体的系统提示或内部状态。我们承认这一构造假设 $h^* \in \mathcal{H}$,即真实的智能体意图可以在该分类体系中表示。当这一假设被违反时,例如出现一种新的恶意行为无法映射到任何 $t_k \in \mathcal{T}$,Bot-Mod 将通过后验质量分配最接近的假设,可能错误分类超出词汇表的意图。我们将此视为已知局限,并留作未来工作的重要方向,特别是在开放世界部署场景中。 ### 3.2 框架概述 如图 1 所示,Bot-Mod 作为一个基于 LLM 的审核器运行,它拦截一个用户智能体 $\mathcal{U}$,目标

相似文章

Context-Agent: 用于非线性对话的动态话题树

arXiv cs.CL

Context-Agent提出了一种新颖框架,将多轮对话历史建模为动态树结构而非扁平序列,更好地捕捉自然对话的层级性和分支性特征。该论文引入NTM基准来评估非线性对话场景,并展示了在各种LLM上的任务完成率和令牌效率的提升。

潜在智能体:一种内化多智能体辩论的后训练方法

Hacker News Top

波士顿大学的研究人员提出了 IMAD(内化多智能体辩论),这是一个两阶段微调框架,能够将多智能体辩论过程提炼至单个 LLM 中,在匹配甚至超越显式多智能体辩论性能的同时,实现最高 93% 的 token 用量缩减。该研究还揭示了激活空间中存在特定于智能体的子空间,从而可以对内化推理行为进行有效控制,包括抑制恶意智能体的影响。