AUDITFLOW:基于可执行符号环境的结构化财务报告验证框架
摘要
本文提出AuditFlow,一种基于图的多智能体框架,利用可执行符号环境进行结构化财务报告验证,在基于FinAuditing的样本上使用GPT-5.5实现了82.09%的审计准确率。
查看缓存全文
缓存时间: 2026/06/03 09:42
# AuditFlow: 面向结构化财务报告验证的可执行符号环境 来源:https://arxiv.org/html/2606.03031 Yan Wang¹, Xuguang Ai¹, Jaisal Patel², Xueqing Peng¹, Fengran Mo³, Yupeng Cao⁴, Haohang Li⁴, Mingyu Cao⁵, Lingfei Qian¹,\*, Víctor Gutiérrez-Basulto⁶ ¹The Fin AI, 美国,²伦斯勒理工学院,美国,³蒙特利尔大学,加拿大,⁴斯蒂文斯理工学院,美国,⁵萨里大学,英国,⁶卡迪夫大学,英国 通讯邮箱:[email protected] (https://arxiv.org/html/2606.03031v1/mailto:[email protected]) ###### 摘要 结构化财务审计验证对于语言模型智能体而言是困难的,因为正确性取决于结构化证据而非纯文本。模型必须将报告事实链接到分类概念,遍历计算或维度关系,并在应用审计规则之前重新计算预期值。我们提出 **AuditFlow**,一个基于图的多智能体框架,将自适应搜索与确定性验证分开。**AuditFlow** 从静态的美国通用会计准则分类图和一个动态的 XBRL 备案图构建一个符号环境,并通过类型化工具暴露该环境,用于事实检索、分类遍历、数值检查和规则评估。两名初级审计员分别从监管和证据角度检查每个案例,而一名高级审计员解决分歧并在需要时要求进一步调查。最终报告通过证据聚合融合,生成审计结论、预期值、证据链和可信度分数。在从 FinAuditing 衍生出的 FinMR 样本上,AuditFlow 在 GPT-5.5 下达到了 82.09% 的联合审计准确率,比最强基线高出 14.93 个百分点。移除确定性检查后,准确率降至 17.91%,表明符号环境执行了模型不能可靠替代的验证步骤。 AuditFlow: 面向结构化财务报告验证的可执行符号环境 Yan Wang¹, Xuguang Ai¹, Jaisal Patel², Xueqing Peng¹, Fengran Mo³, Yupeng Cao⁴, Haohang Li⁴, Mingyu Cao⁵, Lingfei Qian¹,\*, Víctor Gutiérrez-Basulto⁶ ¹The Fin AI, 美国,²伦斯勒理工学院,美国,³蒙特利尔大学,加拿大,⁴斯蒂文斯理工学院,美国,⁵萨里大学,英国,⁶卡迪夫大学,英国 通讯邮箱:[email protected] (https://arxiv.org/html/2606.03031v1/mailto:[email protected]) ## 1 引言 上市公司披露的财务报告被投资者、监管机构和审计师用于评估业绩和合规性。其中许多报告以可扩展商业报告语言(XBRL)形式提交,每个报告数字都关联到一个会计概念、期间、单位和上下文。验证这样一个数字不仅仅是找到它在备案中的位置;系统必须判断其是否与相关分类约束和关联事实一致。 这使得 XBRL 审计验证成为金融 AI 智能体的有用测试平台。如图 1 (https://arxiv.org/html/2606.03031#S1.F1) 所示,一个单一的审计规则可能需要链接分散的 XBRL 文档、遍历分类关系、重新计算预期值,并在结构化证据上应用规则。这些步骤是对结构化工件进行操作,而不仅仅是文本理解。我们将这个工件及其上定义的类型化操作称为一个**符号环境**。在这种设置中,正确性并不存储在备案的某一句中,而是取决于报告事实如何与约束它们的结构相互作用。 参照标题图 1:财务审计验证示例。 最近的结果表明,这类验证对大型语言模型 (LLM) 来说仍然困难。在 FinAuditing 基准测试 (Wang et al., 2026 (https://arxiv.org/html/2606.03031#bib.bib29)) 上,评估中最强的模型在数值一致性任务上仅达到 13.86% 的准确率。类似的挑战出现在法律合规和临床指南检查中,因为答案依赖于外部规则和结构化证据,而非纯文本 (Zhang et al., 2026b (https://arxiv.org/html/2606.03031#bib.bib35); Liu et al., 2026a (https://arxiv.org/html/2606.03031#bib.bib15))。这引出了我们在本文中研究的问题:**当正确性需要与结构化符号环境交互时,语言模型智能体如何做出可靠决策?** 先前的工作取得了一定进展,但大部分验证负担仍然停留在语言模型内部。工具增强的智能体 (Yao et al., 2023 (https://arxiv.org/html/2606.03031#bib.bib32); Schick et al., 2023 (https://arxiv.org/html/2606.03031#bib.bib27); Patil et al., 2024 (https://arxiv.org/html/2606.03031#bib.bib21)) 允许模型调用外部工具,但工具的使用和工具输出的验证通常仍由自然语言推理驱动 (Liu et al., 2026b (https://arxiv.org/html/2606.03031#bib.bib16); Yin et al., 2026 (https://arxiv.org/html/2606.03031#bib.bib33))。检索和图增强的方法 (Edge et al., 2024 (https://arxiv.org/html/2606.03031#bib.bib7); Amayuelas et al., 2025 (https://arxiv.org/html/2606.03031#bib.bib2)) 提供外部证据,神经符号方法则对照约束检查推理步骤 (Feng et al., 2025 (https://arxiv.org/html/2606.03031#bib.bib9))。多智能体反思和辩论框架 (Fatemi and Hu, 2024 (https://arxiv.org/html/2606.03031#bib.bib8); Lee et al., 2026 (https://arxiv.org/html/2606.03031#bib.bib13)) 增加了交叉验证。然而,这些方法通常仍然需要模型执行最终的解释、算术运算或规则应用。金融领域的系统和基准测试,包括 XBRL-Agent (Han et al., 2024 (https://arxiv.org/html/2606.03031#bib.bib10))、FinReporting (Zhang et al., 2026a (https://arxiv.org/html/2606.03031#bib.bib34))、Herculean (Peng et al., 2026 (https://arxiv.org/html/2606.03031#bib.bib22)) 和 FinRule-Bench (Malarkkan et al., 2026 (https://arxiv.org/html/2606.03031#bib.bib17)),进一步暴露了这一差距,但它们并未将备案和分类视为一个用于验证的环境。 我们将这一思想具体化为 **AuditFlow**,一个基于图的多智能体框架,用于 XBRL 审计验证。AuditFlow 将搜索与计算分离:LLM 智能体决定搜索方向,而符号环境执行事实检索、分类遍历、数值检查和规则评估。该环境将静态的美国通用会计准则分类图与动态的备案证据图连接起来。两名初级审计员从监管和证据角度检查同一案例,一名高级审计员在必要时解决分歧,最终通过证据聚合产生结论、预期值、证据链和可信度分数。 我们在 Wang et al. (2026 (https://arxiv.org/html/2606.03031#bib.bib29)) 的 FinAuditing FinMR 子集上评估 AuditFlow,该子集涵盖三个数据质量委员会规则族。在 GPT-5.5 下,AuditFlow 达到了 82.09% 的联合审计准确率,比最强基线 Single Agent 高出 14.93 个百分点。移除确定性检查后,准确率降至 17.91%,无效输出增至 35.82%,表明符号环境执行了关键的验证步骤。结果在多个强大骨干模型上保持稳定,GPT-4o、Claude Sonnet 4.6 和 Qwen-397B 均达到 80.60% 的联合准确率。 我们的贡献如下:(1) 我们定义了面向 XBRL 审计的**基于图的数值一致性验证**,其中答案依赖于备案事实、分类约束、数值检查和可检验的证据。(2) 我们提出了 **AuditFlow**,一个**双图多智能体框架**,连接了美国通用会计准则分类知识与备案特定证据,并通过类型化的确定性工具暴露两者。(3) 我们证明了**搜索-计算分离**对于可靠的审计验证至关重要:LLM 智能体引导搜索,而确定性符号操作确定结论。 ## 2 相关工作 #### 智能体、接地与验证。 LLM 智能体通过使用工具、检索、图和多智能体交互来改进一步生成。ReAct、Toolformer 和 Gorilla 在不同规模上研究了工具使用 (Yao et al., 2023 (https://arxiv.org/html/2606.03031#bib.bib32); Schick et al., 2023 (https://arxiv.org/html/2606.03031#bib.bib27); Patil et al., 2024 (https://arxiv.org/html/2606.03031#bib.bib21)),而基于图的检索和神经符号方法利用外部结构对模型推理进行接地或验证 (Edge et al., 2024 (https://arxiv.org/html/2606.03031#bib.bib7); Amayuelas et al., 2025 (https://arxiv.org/html/2606.03031#bib.bib2); Feng et al., 2025 (https://arxiv.org/html/2606.03031#bib.bib9))。多智能体方法在金融、监管和临床领域增加了反思、辩论或安全门控的协作 (Fatemi and Hu, 2024 (https://arxiv.org/html/2606.03031#bib.bib8); Lee et al., 2026 (https://arxiv.org/html/2606.03031#bib.bib13); Agarwal et al., 2025 (https://arxiv.org/html/2606.03031#bib.bib1); Mo et al., 2026a (https://arxiv.org/html/2606.03031#bib.bib18); Zhang et al., 2026b (https://arxiv.org/html/2606.03031#bib.bib35); Liu et al., 2026a (https://arxiv.org/html/2606.03031#bib.bib15))。这些方法改善了接地,但最终的计算、规则应用或信任判断通常仍停留在语言模型内部 (Liu et al., 2026b (https://arxiv.org/html/2606.03031#bib.bib16); Mo et al., 2026b (https://arxiv.org/html/2606.03031#bib.bib19); Yin et al., 2026 (https://arxiv.org/html/2606.03031#bib.bib33))。而 AuditFlow 则使这些验证步骤在结构化环境中可执行。 #### 用于财务审计的 LLM 智能体。 最近的金融 LLM 系统使用检索、工具、图或智能体来分析备案和披露 (Han et al., 2024 (https://arxiv.org/html/2606.03031#bib.bib10); Wang et al., 2025 (https://arxiv.org/html/2606.03031#bib.bib28); Arun et al., 2025 (https://arxiv.org/html/2606.03031#bib.bib4); Zhang et al., 2026a (https://arxiv.org/html/2606.03031#bib.bib34); Peng et al., 2026 (https://arxiv.org/html/2606.03031#bib.bib22))。相关的审计研究还使用知识图谱和图神经网络来建模会计结构并检测可疑条目 (Zhong et al., 2024 (https://arxiv.org/html/2606.03031#bib.bib36); Huang et al., 2026 (https://arxiv.org/html/2606.03031#bib.bib11))。基准测试如 FinAuditing、FinRule-Bench 和 FinVault 表明,数值一致性、规则归因和安全的金融智能体执行对当前模型来说仍然困难 (Wang et al., 2026 (https://arxiv.org/html/2606.03031#bib.bib29); Malarkkan et al., 2026 (https://arxiv.org/html/2606.03031#bib.bib17); Yang et al., 2026 (https://arxiv.org/html/2606.03031#bib.bib31))。这些工作激发了可靠的审计验证需求,但它们并未将备案和分类视为统一的、可执行的环境。AuditFlow 通过结合双图、类型化确定工具和角色专业化智能体,填补了这一空白,实现了可审计的验证。 ## 3 方法 AuditFlow 遵循第 1 节 (https://arxiv.org/html/2606.03031#S1) 提出的原则:LLM 引导搜索,而符号环境执行计算。在我们的设置中,符号环境由一个双图和一组类型化的确定性工具组成。图存储分类约束和备案证据,而工具负责检索事实、遍历关系、执行数值检查和评估规则。给定一个审计查询,智能体决定接下来检查什么,并通过工具调用与该环境交互。 参照标题图 2:AuditFlow 概览。 如图 2 (https://arxiv.org/html/2606.03031#S3.F2) 所示,AuditFlow 包含四个组件。首先,一个双图审计环境表示静态的美国通用会计准则分类和来自 XBRL 备案的动态证据。其次,一个类型化的动作-观察接口通过确定性工具暴露该环境。第三,一个三智能体审计协议使用两名初级审计员从不同视图检查同一案例,而高级审计员审查他们的报告并在需要时将案例发回进行进一步调查。最后,一个证据聚合步骤将生成的报告合并为最终审计输出。 ### 3.1 任务形式化 我们研究**基于图的数值一致性验证**。给定一个 XBRL 备案 \(\mathcal{F}\)、一个目标概念 \(c\)、一个报告期间 \(t\) 以及相应的美国通用会计准则分类版本 \(\mathcal{T}_y\),系统判断报告值 \(v_{\mathrm{rep}}\) 是否与分类、备案上下文和适用审计规则所隐含的值一致。系统输出 \[ (\hat{y},\; v_{\mathrm{rep}},\; v_{\mathrm{exp}},\; \mathcal{P},\; \mathcal{Z},\; \tau), \] 其中 \(\hat{y} \in \{\mathrm{consistent},\mathrm{violation}\}\) 是最终决策,\(v_{\mathrm{exp}}\) 是由确定性检查计算出的预期值,\(\mathcal{P}\) 是动作路径,\(\mathcal{Z}\) 是支持证据,\(\tau\) 是由证据聚合得出的可信度分数。我们将动作路径和证据包含在输出中,因为结论必须是可检验的。 我们评估三个数据质量委员会 (DQC)¹ 规则族:符号一致性 (DQC.US.0015)、维度聚合一致性 (DQC.US.0117) 和计算树一致性 (DQC.US.0126)。这些规则需要来自报告事实、上下文、单位、分类元数据、计算关系和维度结构的信息。AuditFlow 通过可执行工具暴露这些来源,因此模型选择结构化操作,而不是仅从文本生成结论。 ### 3.2 双图审计环境 该环境将分类知识与备案证据分开。分类定义了报告约束,而备案提供了报告事实。我们将其表示为双图环境: \[ \mathcal{E} = (\mathcal{G}^y_T, \mathcal{G}_F, \mathcal{A}, O), \] 其中 \(\mathcal{G}^y_T\) 是年份 \(y\) 的静态分类图,\(\mathcal{G}_F\) 是备案特定图,\(\mathcal{A}\) 是类型化动作空间,\(O(a, s)\) 是在审计状态 \(s\) 下执行动作 \(a\) 后返回的结构化观察。图的组成如下: \[ \mathcal{G} = \mathcal{G}^y_T \cup \mathcal{G}_F, \] 桥接边将报告事实链接到其分类概念。 #### 静态监管图。 静态图 \(\mathcal{G}^y_T\) 编码了美国通用会计准则分类。其节点是分类概念,包含元数据如标签、定义、数据类型、期间类型、抽象标志和余额属性。其边编码了展示、计算和维度关系。该图提供了审计工具所使用的约束,包括概念查找、符号检查、计算遍历和维度验证。 #### 动态备案图。 动态图 \(\mathcal{G}_F\) 编码了 XBRL 备案。其节点代表报告事实、上下文、期间、单位和维度分配。一个事实节点存储概念名称、值、单位、小数位数、期间签名和维度上下文。边将事实连接到它们的上下文、单位、维度、相关事实和分类概念。 两个图之间的桥接支持审计轨迹。系统可以从一个报告事实开始,移动到管理它的分类概念,检索相关的计算或维度结构,然后返回备案图以收集验证所需的事实。
相似文章
审计智能体执行框架安全性
本文提出HarnessAudit,一个用于审计LLM智能体执行轨迹(而非仅最终输出)的框架,重点关注边界合规性、执行保真度和系统稳定性。同时引入HarnessAudit-Bench,包含八个领域210个任务,评估了十种执行框架配置,发现任务完成与安全执行不一致,且违规行为随轨迹长度积累。
AgentForesight:多智能体系统中用于早期故障预测的在线审计
本文介绍了 AgentForesight,这是一个用于基于大语言模型(LLM)的多智能体系统的在线审计和早期故障预测框架。文章提出了一个新数据集 AFTraj-22K,以及一个专用模型 AgentForesight-7B,该模型在检测轨迹执行过程中的决定性错误方面优于领先的专有模型。
迈向可安全审计的大模型智能体:一种统一的图表示方法
本文提出了 Agent-BOM,一种用于基于大语言模型(LLM)的智能体系统进行安全审计的统一图表示方法。它通过建模静态能力和动态运行时状态,解决了事后审计中的语义鸿沟问题,能够检测记忆投毒和工具误用等复杂的攻击链。
Goal-Autopilot:一种可验证的抗虚构防火墙,用于无人值守的长时域智能体
本文提出了Autopilot,一种用于长时间跨度LLM智能体的执行模型,通过将状态外部化到门控有限状态机中来强制诚实终止。它提供了防止虚构成功的理论保证,并在实证评估中展示了比Reflexion和StateFlow显著更低的虚构率。
SAGE:一种由LLM驱动的自我反思智能体框架用于欺诈检测
介绍了SAGE,首个端到端的LLM驱动的多智能体框架用于欺诈检测,它使用数据诊断树和具有自然语言梯度的马尔可夫决策过程,在类别不平衡下优化模型。实验表明,在五个数据集上,与基线相比F1有显著提升。