MADP: 面向可持续文档处理的多智能体流水线，带有人机回环

arXiv cs.AI 2026/05/19 04:00 论文

multi-agent document-processing human-in-the-loop llm sustainability enterprise fine-tuning

摘要

MADP是一种用于企业文档处理的多智能体架构，结合了深度学习和大型语言模型，并采用人机回环验证，实现了97%的自动化率以及资源消耗的大幅降低。

arXiv:2605.17159v1 公告类型：新摘要：文档处理自动化在企业环境中仍然是一个关键挑战，传统的纯手工方法既耗费人力又容易出错。我们提出了MADP，一种多智能体架构，通过结合基于深度学习的分类与解析以及大语言模型提取，同时通过选择性人工校验保持准确性，从而解决了企业环境中文档处理自动化的挑战。我们的系统集成了五个专用智能体——分类器（Classificator）、分割器（Splitter）、解析器（Parser）、提取器（Extraction）和校验器（Validator）——以及人机回环（HITL）机制和一种新颖的带有反馈继承的提示微调（PFTFI）方法。基于每年处理10万张发票的生产用例场景的操作分析表明，全职当量（FTE）需求可能减少约70%。截至2026年1月，对955份真实文档的生产部署实现了97.0%的全流水线自动化率，仅有3%需要非AI回退。在分层抽样的100份文档子集（每个20个供应商/文档类型类别各5份文档）上进行消融评估表明，采用人机回环监督的完整MADP配置达到了98.5%的文档级准确率。此外，我们提出了一项全面的可持续性分析，显示与传统手动处理相比，我们的混合AI+HITL方法减少了69%的二氧化碳排放、69%的能源消耗和63%的水资源使用。多个LLM后端（Granite-Docling、Mistral-Small、DeepSeek-OCR）的基准比较为生产环境中的部署提供了实用见解。

查看原文

查看缓存全文

缓存时间: 2026/05/19 06:39

# MADP：一种带有人机协作的可持续文档处理多智能体流水线
来源：https://arxiv.org/html/2605.17159
11institutetext:特西广场人工智能主管，意大利都灵；成员，开放语音互操作性倡议，Linux基金会AI与数据
11email:diego\.gosmar@ieee\.org22institutetext:都灵理工大学，管理与生产工程系，意大利都灵
22email:giovanni\.zenezini@polito\.it###### 摘要

文档处理自动化在企业环境中仍是一个关键挑战，传统的手工方法既劳动密集又容易出错。我们提出了MADP，这是一种多智能体架构，通过将基于深度学习的分类与解析和大型语言模型提取相结合，同时通过选择性人工验证保持准确性，从而解决了企业环境中文档处理自动化的挑战。我们的系统集成了五个专门化的智能体——分类器、分割器、解析器、提取器和验证器——并配备人机协作（HITL）机制以及一种新颖的带反馈继承的提示微调（PFTFI）方法。对一个每年10万张发票的生产用例场景进行运营分析表明，全职等效（FTE）需求可能减少约70%。在截至2026年1月处理的955份实际文档上进行的生产部署实现了97.0%的全流水线自动化率，仅有3%需要非AI回退。在一个分层抽样的100份文档子集（20个供应商/文档类型类别中各5份文档）上的消融评估表明，带有人机协作监督的完整MADP配置达到了98.5%的文档级准确率。此外，我们提供了一项全面的可持续性分析，表明与传统的纯人工处理相比，我们的混合AI+HITL方法降低了69%的二氧化碳排放、69%的能源消耗和63%的用水量。多个LLM后端（Granite-Docling、Mistral-Small、DeepSeek-OCR）的基准比较为生产环境中的部署提供了实际见解。

## 1 引言

文档密集型业务流程的数字化转型在信息提取、验证和自动决策方面提出了重大挑战[35 (https://arxiv.org/html/2605.17159#bib.bib25)]。传统的光学字符识别（OCR）系统难以处理复杂的文档布局、多页结构和领域特定术语，通常需要大量的人工验证[2 (https://arxiv.org/html/2605.17159#bib.bib14)]。

近期大型语言模型（LLM）的进展展示了从非结构化文档中理解和提取结构化信息的卓越能力[4 (https://arxiv.org/html/2605.17159#bib.bib1)]。然而，在生产环境中部署LLM面临三个关键挑战：(1) 在关键任务应用中存在幻觉和非确定性准确性问题[36 (https://arxiv.org/html/2605.17159#bib.bib30),8 (https://arxiv.org/html/2605.17159#bib.bib4),10 (https://arxiv.org/html/2605.17159#bib.bib5)]，(2) 大规模推理的计算和环境成本[27 (https://arxiv.org/html/2605.17159#bib.bib22)]，以及(3) 在受监管行业中缺乏可解释性和可审计性[3 (https://arxiv.org/html/2605.17159#bib.bib19)]。

为了解决这些挑战，我们提出了MADP，这是一种多智能体架构，在人类监督下协调专门的AI智能体进行端到端的文档处理。该框架在模块化流水线中结合了卷积神经网络和大型语言模型，并引入了一种带反馈继承的提示微调（PFTFI）机制，该机制利用人工修正来随时间改进提取行为，而无需重新训练底层模型。我们在截至2026年1月处理的955份实际文档的生产数据集上评估了MADP，实现了97.0%的全流水线自动化率。在一个分层抽样的100份文档子集（20个供应商/文档类型类别中各5份文档）上的消融评估表明，带有人机协作监督的完整配置达到了98.5%的文档级准确率。我们还通过一个每年10万张发票的用例场景分析了运营效率，显示出FTE可能减少约70%。除了运营指标外，我们还提供了据我们所知第一个关于AI辅助文档处理的详细可持续性分析，量化了与完全人工基线相比在二氧化碳排放、能源消耗和用水量方面的减少。最后，我们报告了多个LLM后端在文档分析任务上的比较基准，突出了在生产类似条件下准确性、延迟和资源占用之间的权衡。

我们的结果表明，与完全人工或完全自动化方法相比，通过智能协调AI智能体并辅以战略性人工干预，可以在显著降低运营成本和环境影响的同时实现更高的准确性。

## 2 相关工作

### 2.1 文档分析与识别

传统的文档分析依赖于基于规则的系统 and 经典的机器学习方法[24 (https://arxiv.org/html/2605.17159#bib.bib21)]。深度学习已经改变了这个领域，CNN在文档分类[13 (https://arxiv.org/html/2605.17159#bib.bib11)]和布局分析[33 (https://arxiv.org/html/2605.17159#bib.bib29)]中取得了最先进的性能。LayoutLM[33 (https://arxiv.org/html/2605.17159#bib.bib29)]及其后续模型结合了文本、布局和视觉特征用于文档理解，而Donut[17 (https://arxiv.org/html/2605.17159#bib.bib15)]提出了使用视觉变换器的无OCR方法。

近期关于文档解析的工作重点在于处理复杂布局[37 (https://arxiv.org/html/2605.17159#bib.bib38)]。ParseBench[34 (https://arxiv.org/html/2605.17159#bib.bib35)]在五个能力维度上评估了大约2000个企业页面上的14种解析方法，发现没有单一的解析器能在所有文档类型中占主导地位——这一结果与我们选择Docling的务实做法一致。对于发票特定的提取，Liu等人[20 (https://arxiv.org/html/2605.17159#bib.bib36)]提出了MATRIX，一种记忆增强型智能体，在764份真实发票文档上比直接使用LLM提示提高了超过30%的性能；与MADP不同，MATRIX没有集成HITL验证或可持续性分析。大多数方法缺乏对各种文档格式的鲁棒性，并且需要大量训练数据进行领域自适应。

### 2.2 用于NLP的多智能体系统

多智能体系统将复杂任务分解为由协调智能体处理的专门子任务[32 (https://arxiv.org/html/2605.17159#bib.bib28),15 (https://arxiv.org/html/2605.17159#bib.bib13),8 (https://arxiv.org/html/2605.17159#bib.bib4),10 (https://arxiv.org/html/2605.17159#bib.bib5)]。AutoGEN[32 (https://arxiv.org/html/2605.17159#bib.bib28)]通过会话智能体支持构建LLM应用，而MetaGPT[15 (https://arxiv.org/html/2605.17159#bib.bib13)]将人工工作流融入智能体编排。新兴的开放标准如开放语音互操作性规范[1 (https://arxiv.org/html/2605.17159#bib.bib37)]进一步解决了跨异构系统的智能体通信互操作性问题。Kulkarni和Kulkarni[18 (https://arxiv.org/html/2605.17159#bib.bib34)]在10,000份SEC文件上对四种编排架构进行了基准测试，发现自反性自我修正循环达到了最高的F1得分（0.943），但成本是顺序基线的2.3倍；MADP的PFTFI通过选择性HITL干预实现了类似的迭代修正，同时控制了成本。

在文档处理中，近期关于OCR和文档理解的基准测试[21 (https://arxiv.org/html/2605.17159#bib.bib27)]揭示了处理多语言和手写文本方面的性能差距，而对生产规模数据集的系统评估和环境影响评估仍然有限。

### 2.3 人机协作系统

人机协作（HITL）方法将自动化处理与战略性人工干预相结合[23 (https://arxiv.org/html/2605.17159#bib.bib20)]。主动学习框架[29 (https://arxiv.org/html/2605.17159#bib.bib24)]通过选择性地向人类标注员查询不确定的预测，从而最小化标注成本。然而，现有的用于文档处理的HITL系统缺乏从人类反馈中持续学习的机制。

### 2.4 AI系统的可持续性

AI对环境的影响日益受到关注[27 (https://arxiv.org/html/2605.17159#bib.bib22),30 (https://arxiv.org/html/2605.17159#bib.bib26)]。近期的工作量化了LLM训练[22 (https://arxiv.org/html/2605.17159#bib.bib18)]和推理[28 (https://arxiv.org/html/2605.17159#bib.bib23)]的碳足迹，以及数据中心冷却的用水量[19 (https://arxiv.org/html/2605.17159#bib.bib17)]。然而，没有先前的工作分析过AI辅助文档处理相比人工替代方案的完整可持续性影响。

## 3 MADP架构

### 3.1 系统概述

MADP实现了一个专门化模块流水线，包含五个按顺序编排的组件（图1 (https://arxiv.org/html/2605.17159#S3.F1)）。每个组件执行特定的子任务，中间结果传递给下游阶段。PFTFI反馈循环在整个流水线中引入了双向智能体行为，使得无需模型重训练即可持续改进。该架构通过每个阶段的验证提供了固有的安全优势[6 (https://arxiv.org/html/2605.17159#bib.bib6)]，并支持完全自动化处理以及在关键决策点进行人机协作验证。

参见图注图1：MADP流水线：五个顺序组件（分类器、分割器、解析器、提取器、验证器）带有PFTFI反馈循环。
### 3.2 分类器智能体

分类器智能体使用训练好的卷积神经网络来识别文档类型和供应商类别。对于发票处理，CNN根据供应商对文档进行分类，从而启用供应商特定的提取模板。

CNN架构使用在ImageNet上预训练的ResNet-18[14 (https://arxiv.org/html/2605.17159#bib.bib12)]。有意选择ResNet-18而非更深层的变体（ResNet-50、ResNet-101），以最小化分类延迟和计算占用，同时保持足够的表示能力用于文档标题分类。前三个卷积块保持冻结以保留通用的视觉特征，而第四个块则在文档标题上进行微调。对于发票和交货单处理，输入图像被裁剪到顶部40%，以聚焦包含供应商标识、徽标和文档类型指示符的标题区域。图像被调整为224×224像素并进行标准归一化。该模型在我们的测试集（包含150个供应商类别的5,000份文档）上达到了95.3%的分类准确率。

### 3.3 分割器智能体

多页文档在加工前需要进行页面级分割。分割器智能体分析文档结构并分离逻辑单元（例如，批处理文件中的单个发票）。它结合了视觉特征（分页符、标题）和语义分析来识别边界。

对于PDF文档，该智能体提取页面元数据，并根据文档类型分类应用启发式规则。分割器减少了因跨文档边界上下文混淆而引起的处理错误。

### 3.4 解析器智能体

解析器智能体将原始文档格式转换为结构化的Markdown表示，以优化后续基于LLM的处理。这个预处理步骤对于观察到的准确性改进至关重要，因为它减少了噪声，并以一种更容易被提取模型利用的形式暴露了底层文档结构。具体来说，解析器分析页面布局以识别文本区域、表格和图形，确定适当的阅读顺序以重建连贯的文本流，并在单个单元格级别识别表格结构。生成的内容随后被转换为分层的Markdown表示，保留了关键的空间关系，同时相对于原始OCR输出大幅减少了token数量。

我们使用Docling库[16 (https://arxiv.org/html/2605.17159#bib.bib3)]实现了解析器，该库结合了基于规则的布局分析和基于ML的表格检测。结构化的Markdown格式相比原始OCR输出减少了35%的token数量，同时保留了语义信息。

### 3.5 提取器智能体

提取器智能体使用大型语言模型从解析后的文档表示中推断结构化信息。提取过程由精心设计的提示驱动，这些提示指定了文档类型、预期字段集和所需输出格式，同时还包括对数据类型和可接受值的明确约束。提示还包含少量示意性示例，展示了对代表性案例的正确提取，并提供了关于如何处理缺失、不明确或部分不一致信息的指导，以最小化幻觉并确保模式合规。

该智能体输出JSON结构化数据，并附带每个提取字段的置信度分数。我们评估了多个LLM后端（第4.4节 (https://arxiv.org/html/2605.17159#S4.SS4)），以平衡准确性、延迟和成本。

#### 3.5.1 并行提取策略

为了提高鲁棒性和置信度分数，提取器智能体支持并行提取配置，其中多个LLM后端或专门化模型同时处理相同的文档。系统应用共识投票来识别达成一致的值，这些值获得更高的置信度分数，而差异则触发自动标记以进行人工审查。对于复杂结构，如行项目表格、手写注释或多语言内容，可以并行部署字段特定的提取器，从而在不妨碍整体流水线吞吐量的情况下实现有针对性的优化。

### 3.6 带PFTFI的验证器智能体

验证器智能体执行后处理验证，并实现所提出的带反馈继承的提示微调（PFTFI）机制。该组件充当哨兵[9 (https://arxiv.org/html/2605.17159#bib.bib8)]，通过根据领域知识和业务约束对提取字段进行系统验证来强制数据质量和安全性。在实践中，验证器检查日期、货币金额和税务标识是否符合预期格式；验证数值关系（如小计加税额等于总金额）是否在预定义容差内成立；强制执行关键数量的合理值范围；并检查跨字段依赖关系，以便在数据传播到下游系统之前检测内部不一致性。

未通过验证或置信度分数低于可配置目标阈值的文档通过验证GUI路由给人工审核员。这些阈值通常根据文档类型、供应商可靠性、字段关键性和组织风险容忍度设置在80-90%之间，并且可以根据观察到的准确率模式动态调整。

当人工修正提取错误时，PFTFI智能体捕获原始提取数据

MADP: 面向可持续文档处理的多智能体流水线，带有人机回环

相似文章

将文档AI投入生产：面向OCR与LLM管道的微服务架构

用于高中成绩单自动处理的多智能体AI系统：大规模协作式文档分析

学习合作、竞争和沟通

MARDoc：面向多模态长文档问答的记忆感知精炼代理框架

Mind DeepResearch 技术报告

提交意见反馈