PathoSage：通过经验感知的代理工作流实现病理学中的多源证据裁决

arXiv cs.AI 2026/06/09 04:00 论文

pathology mllm multi-modal agentic-workflow evidence-adjudication computational-pathology tool-reliability

摘要

PathoSage 提出了一个三阶段框架，用于病理学多模态推理，该框架将知识检索、证据收集和证据裁决分开，以减少幻觉并处理冲突证据，并包含一个无需训练的 Beta-Bernoulli 经验系统，用于建模工具可靠性。

arXiv:2606.07549v1 公告类型：新摘要：多模态大语言模型（MLLMs）和代理工作流的最新进展在计算病理学领域展现出巨大潜力，但可靠的补丁级推理仍然具有挑战性。端到端病理学 MLLM 常常会产生形态学特征的幻觉，而最近的代理系统通常将工具输出和检索到的知识合并到共享上下文中，使得决策容易受到冲突证据和上下文污染的影响。我们提出 PathoSage，一个明确将知识检索、证据收集和证据裁决分离用于补丁级病理学多模态推理的三阶段框架。其核心组件“结构化证据审议”独立评估来自工具的异质证据，进行冲突分析，并在全新上下文中生成最终判断以减少锚定偏差。我们还引入了一个无需训练的 Beta-Bernoulli 经验系统，具有连续信用分配，用于建模长期工具可靠性并构建未来工具使用的相似性加权先验。实验表明，PathoSage 有效缓解了 VQA 幻觉和分类器不一致，优于强大的病理学 MLLM 和代理基线。我们的结果突显了显式证据裁决和可靠性感知工具建模是构建稳健病理学代理的关键要素。

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:52

# PathoSage：面向病理学中多源证据裁定的经验感知智能体工作流

来源：https://arxiv.org/html/2606.07549

陈诚扬¹,² 张文川²∗ 李波³ 李梦然⁴ 张博³ 易宇豪¹,² 卜宏²,† 吕建成¹,†

¹ 四川大学计算机学院  
² 四川大学华西医院病理科 / 临床病理研究所  
³ 澳门大学计算机与信息科学系  
⁴ 中山大学智能工程学院  

[email protected]

###### 摘要

多模态大语言模型 (MLLM) 和智能体工作流的最新进展已展现出在计算病理学领域的巨大潜力，然而可靠的局部层面推理仍然充满挑战。端到端的病理学 MLLM 常常产生形态学特征的幻觉，而近期的智能体系统通常将工具输出和检索到的知识合并到一个共享上下文中，这使得决策容易受到冲突证据和上下文污染的影响。我们提出 PathoSage，一个三阶段框架，将知识检索、证据收集和证据裁定明确分离，用于局部层面的病理学多模态推理。其核心组件——结构化证据审议 (Structured Evidence Deliberation)，独立评估来自工具的异质证据，进行冲突分析，并在全新的上下文中生成最终判断，以减少锚定偏差。我们进一步引入了一种无需训练的 Beta-Bernoulli 经验系统，通过连续信用分配来建模工具的长期可靠性，并为未来工具使用构建基于相似性加权的先验。实验表明，PathoSage 有效缓解了 VQA 幻觉和分类器不一致问题，性能优于强大的病理学 MLLM 和智能体基线。我们的结果突显了明确的证据裁定和可靠性感知工具建模是构建鲁棒病理学智能体的关键要素。

## 1 引言

近年来，计算病理学中的多模态大语言模型 (MLLM) 已从早期的图像-文本表示学习迅速发展为复杂的多步骤推理 [plip](https://arxiv.org/html/2606.07549#bib.bib52);[quilt1m](https://arxiv.org/html/2606.07549#bib.bib53);[slideseek](https://arxiv.org/html/2606.07549#bib.bib25);[vlsa](https://arxiv.org/html/2606.07549#bib.bib55)。因此，病理学人工智能正从单一范式演变为主动调用外部工具、检索领域知识并组织分析工作流的智能体系统。这些病理学智能体不再仅仅直接生成答案，而是越来越多地通过利用结构化机制来获取和组织证据，模拟专家行为 [pathchat](https://arxiv.org/html/2606.07549#bib.bib2);[wsi-llava](https://arxiv.org/html/2606.07549#bib.bib12);[patho-agenticrag](https://arxiv.org/html/2606.07549#bib.bib24);[cpathagent](https://arxiv.org/html/2606.07549#bib.bib29);[pathology-cot](https://arxiv.org/html/2606.07549#bib.bib26)。近期研究已在细粒度形态学识别和全切片图像跨区域分析方面推进了多模态推理 [titan](https://arxiv.org/html/2606.07549#bib.bib15);[chief](https://arxiv.org/html/2606.07549#bib.bib58)。工具增强也已出现；例如，PathAsst 将专用主干网络与视觉子模型和文献检索相结合 [pathasst](https://arxiv.org/html/2606.07549#bib.bib23)。在此基础上，最近的研究强调，可靠的推理需要结构化的工作流，用于观测选择、工具调用和逐步证据积累，而不仅仅依赖更强的视觉表示 [patho-agenticrag](https://arxiv.org/html/2606.07549#bib.bib24);[cpathagent](https://arxiv.org/html/2606.07549#bib.bib29);[pathology-cot](https://arxiv.org/html/2606.07549#bib.bib26)。总体而言，这些发展表明病理学人工智能正逐渐从孤立的多模态理解转向更结构化的系统，这些系统必须组织、比较和利用来自多个来源的证据。

尽管取得了这些进展，现有方法通常将工具输出、检索信息和模型推理合并到单个共享上下文中 [Rajendran2025FoundationMI](https://arxiv.org/html/2606.07549#bib.bib56);[peng2025aligning](https://arxiv.org/html/2606.07549#bib.bib57)。当来源提供**异质或冲突证据**时（例如分类器意见不一、VQA 结果产生幻觉、或检索到的知识与图像不完全对齐），这种设计是脆弱的 [chen2026landscape](https://arxiv.org/html/2606.07549#bib.bib60)。没有明确的证据裁定，早期偏差和上下文污染会累积，降低可靠性和可解释性。因此，核心挑战不仅仅是如何添加更多工具或更多知识，而是如何在产生最终答案之前分离、评估和调和异质证据。这一局限性也映射了推理智能体、工具使用和检索增强生成领域文献所公认的更广泛挑战 [react](https://arxiv.org/html/2606.07549#bib.bib36);[toolformer](https://arxiv.org/html/2606.07549#bib.bib38)。这个问题对于**局部层面病理推理**尤为关键。作为形态学证据的紧凑且可解释单元 [zhang2025attention](https://arxiv.org/html/2606.07549#bib.bib65);[shui2026nunext](https://arxiv.org/html/2606.07549#bib.bib68)，局部图块是临床判断、教学辅助和交互式分析的自然基础 [conch](https://arxiv.org/html/2606.07549#bib.bib51);[musk](https://arxiv.org/html/2606.07549#bib.bib54);[homie](https://arxiv.org/html/2606.07549#bib.bib59);[patho-agenticrag](https://arxiv.org/html/2606.07549#bib.bib24);[octomed](https://arxiv.org/html/2606.07549#bib.bib61);[pulsemind](https://arxiv.org/html/2606.07549#bib.bib62);[cx-mind](https://arxiv.org/html/2606.07549#bib.bib63);[wu2025bridging](https://arxiv.org/html/2606.07549#bib.bib64);[jeddi2026does](https://arxiv.org/html/2606.07549#bib.bib67);[anatomy-r1](https://arxiv.org/html/2606.07549#bib.bib69)。虽然局部层面设置为研究工具-模型交互提供了一个理想的测试平台，但仍然缺乏一个统一框架来结构性收集、调和和建模异质证据。它提供了一个相对受控的环境，其中核心困难不在于大规模导航本身，而在于多源证据应如何组织、比较和裁定。**多源证据应如何裁定**这一根本问题仍未得到充分探索 [rag](https://arxiv.org/html/2606.07549#bib.bib39);[reflexion](https://arxiv.org/html/2606.07549#bib.bib44);[zhang2026multimodal](https://arxiv.org/html/2606.07549#bib.bib37)。

请参考图注

图 1: (a) “黑盒” VLM 方法与 (b) 我们提出的 PathoSage 在基于证据的病理学分析中的对比。(c) PathoSage 在 PathMMU 测试集上的性能。

为了解决这个问题，我们提出 PathoSage，一种用于局部层面多模态推理的三阶段框架，明确分解了推理过程。首先，在知识检索阶段，系统根据图块和查询检索并评估任务相关的外部知识 [patho-agenticrag](https://arxiv.org/html/2606.07549#bib.bib24);[pathasst](https://arxiv.org/html/2606.07549#bib.bib23)。接下来，证据收集阶段调用病理学专用工具来收集局部视觉证据，暂缓最终答案的生成 [react](https://arxiv.org/html/2606.07549#bib.bib36)。最后，结构化证据审议阶段独立评估工具输出，进行冲突分析，并在新的上下文中生成最终判断，以最小化历史污染。因此，PathoSage 将范式从仅仅**使用**工具转变为明确**裁定**其证据。此外，我们引入了一个 Beta-Bernoulli 经验系统来动态建模工具在相似图块上的可靠性 [agrawal2012analysis](https://arxiv.org/html/2606.07549#bib.bib66)。PathoSage 不假设静态可信度，而是根据工具性能和任务相关性持续更新后验估计，将单实例推理与长期适应相结合，以实现更针对性的未来工具使用 [toolmem](https://arxiv.org/html/2606.07549#bib.bib40);[xskill](https://arxiv.org/html/2606.07549#bib.bib41)。最终，通过形式化证据组织和裁定，这项工作为实际的局部层面应用和更大规模的病理学智能体系统建立了坚实的基础（图 1 (https://arxiv.org/html/2606.07549#S1.F1)）。

#### 我们的主要贡献如下。

1.  1. 我们提出了 **PathoSage**，一种用于局部层面病理学多模态推理的三阶段智能体框架，明确解耦了知识检索、证据收集、证据裁定和最终答案生成。
2.  2. 我们介绍了**结构化证据审议 (SED)** 和一个 **Beta-Bernoulli 经验系统**，用于异质证据评估、工具间冲突分析、加权推理以及长期可靠性感知的工具利用。
3.  3. 我们构建了一个用于局部层面推理的工具增强系统，在多个基准上进行了验证，展示了明确的证据裁定和基于经验的可靠性建模的价值。

## 2 相关工作

### 2.1 病理学多模态大语言模型

近年来，病理学多模态大语言模型发展迅速，研究重点从早期的图像-文本表示学习扩展到病理学问答、描述生成、可解释性以及更复杂的多步骤推理。这一演变的自然趋势是，一些研究主要集中在局部病理图像上，强调细粒度形态学识别、局部语义理解和图块级问答，而另一些研究则进一步扩展到全切片图像，建模跨区域上下文、多尺度组织结构和切片级语义生成。这些方向的代表性工作包括 PathAsst [pathasst](https://arxiv.org/html/2606.07549#bib.bib23)、Quilt-LLaVA [quilt-llava](https://arxiv.org/html/2606.07549#bib.bib1)、PathChat [pathchat](https://arxiv.org/html/2606.07549#bib.bib2)、PA-LLaVA [pa-llava](https://arxiv.org/html/2606.07549#bib.bib3)、PathGen-LLaVA [pathgen16m](https://arxiv.org/html/2606.07549#bib.bib4)、Patho-R1 [patho-r1](https://arxiv.org/html/2606.07549#bib.bib5)、SmartPath-R1 [smartpath-r1](https://arxiv.org/html/2606.07549#bib.bib6)、TeamPath [teampath](https://arxiv.org/html/2606.07549#bib.bib7)，以及 WSICaption [wsicaption](https://arxiv.org/html/2606.07549#bib.bib8)、WSI-VQA [wsi-vqa](https://arxiv.org/html/2606.07549#bib.bib9)、HistGen [histgen](https://arxiv.org/html/2606.07549#bib.bib10)、SlideChat [slidechat](https://arxiv.org/html/2606.07549#bib.bib11)、WSI-LLaVA [wsi-llava](https://arxiv.org/html/2606.07549#bib.bib12)、PathAlign [pathalign](https://arxiv.org/html/2606.07549#bib.bib13)、ALPaCA [alpaca](https://arxiv.org/html/2606.07549#bib.bib14)、TITAN [titan](https://arxiv.org/html/2606.07549#bib.bib15)、PathReasoner-R1 [pathreasoner-r1](https://arxiv.org/html/2606.07549#bib.bib16)、CPath-Omni [cpath-omni](https://arxiv.org/html/2606.07549#bib.bib17)、PolyPath [polypath](https://arxiv.org/html/2606.07549#bib.bib18)、HistoGPT [histogpt](https://arxiv.org/html/2606.07549#bib.bib19)、PRISM² [prism2](https://arxiv.org/html/2606.07549#bib.bib20)、Hepato-LLaVA [hepato-llava](https://arxiv.org/html/2606.07549#bib.bib22) 和 PathFound [pathfound](https://arxiv.org/html/2606.07549#bib.bib21)。总体而言，现有的病理学 MLLM 已经证明，病理学理解不能仅依赖单一尺度或模态，而是需要将局部形态学线索与更高层次的组织病理学语义相连接。

### 2.2 工具增强推理与病理学智能体

随着病理学多模态系统的持续发展，越来越多的研究将重点从仅仅让模型能够回答问题，转向让系统主动组织推理过程。这一趋势通常体现在引入智能体能力，如工具调用、知识检索、区域导航、多步观测和决策轨迹建模。与主要强调端到端生成的传统病理学 MLLM 不同，病理学智能体更加强调系统能否通过主动选择感兴趣区域、调用辅助模块、逐步积累证据来更贴近地模拟病理学家的工作流程，然后得出结论。近期的病理学智能体研究已经扩展到多个方向，包括知识增强推理、全切片导航、临床决策支持、预后分析和生物标志物发现。代表性的系统包括 Patho-AgenticRAG [patho-agenticrag](https://arxiv.org/html/2606.07549#bib.bib24)、SlideSeek [slideseek](https://arxiv.org/html/2606.07549#bib.bib25)、Pathology-CoT [pathology-cot](https://arxiv.org/html/2606.07549#bib.bib26)、PathFinder [pathfinder](https://arxiv.org/html/2606.07549#bib.bib27)、PathAgent [pathagent](https://arxiv.org/html/2606.07549#bib.bib28)、CPathAgent [cpathagent](https://arxiv.org/html/2606.07549#bib.bib29)、SurvAgent [survagent](https://arxiv.org/html/2606.07549#bib.bib30)、WSI-agent [wsi-agent](https://arxiv.org/html/2606.07549#bib.bib31)、TissueLab [tissuelab](https://arxiv.org/html/2606.07549#bib.bib32)、MMNavAgent [mmnavagent](https://arxiv.org/html/2606.07549#bib.bib33)，以及用于肿瘤学决策和生物标志物发现的相关智能体框架 [ferber2025development](https://arxiv.org/html/2606.07549#bib.bib34);[sage](https://arxiv.org/html/2606.07549#bib.bib35)。总体而言，这些研究暗示病理学人工智能正在向集成工具使用、知识获取和证据积累的主动系统演进。这一转变也突显了一个更深层次的挑战：异质证据应如何组织并用于可靠推理。

### 2.3 多源证据整合、冲突处理与可靠性建模

尽管工具增强、检索增强生成和智能体推理已大幅扩展了多模态系统的能力边界，但大多数现有方法仍将工具输出、检索知识和模型推理合并到一个共享交互轨迹中，让最终决策在单一累积上下文上做出 [react](https://arxiv.org/html/2606.07549#bib.bib36);[toolformer](https://arxiv.org/html/2606.07549#bib.bib38);[rag](https://arxiv.org/html/2606.07549#bib.bib39);[pathasst](https://arxiv.org/html/2606.07549#bib.bib23);[cpathagent](https://arxiv.org/html/2606.07549#bib.bib29);[pathology-cot](https://arxiv.org/html/2606.07549#bib.bib26)。虽然这种设计在提升整体能力方面有效，但它引发了一个重要且仍未充分探索的挑战：当不同工具提供异质、部分相关甚至冲突的证据时，系统应如何明确分离**证据收集**与**证据裁定**？这个问题在病理学中尤为关键，因为分类器可能意见不一，VQA 模块可能产生形态学发现的幻觉，检索到的知识可能只部分匹配正在分析的图像。近期研究已开始从一次性工具使用转向具备记忆和经验的智能体 [memos](https://arxiv.org/html/2606.07549#bib.bib42);[memverse](https://arxiv.org/html/2606.07549#bib.bib43)。ToolMem 表明，智能体可以通过总结先前交互中工具的优缺点，并在推理时检索此类能力记忆来改进工具选择 [toolmem](https://arxiv.org/html/2606.07549#bib.bib40);[xskill](https://arxiv.org/html/2606.07549#bib.bib41) 。然而，在病理学这样高风险、证据密集的领域，系统不仅需要在单次查询中评估证据，还需要在长期使用中动态建立对每个工具的信任。这种定向的可靠性建模，与静态的信任分配或全局记忆无关，而是反映工具在特定形态模式、组织类型或任务类型上的表现差异。我们工作的核心见解是，一旦证据收集与证据裁定被分离，就需要一种机制来衡量不同来源的可信度，特别是当它们的输出不一致时。Beta-Bernoulli 经验系统正是为此设计：它通过不断的后验更新，将观测到的工具成功与失败转化为代理对特定工具的持续信任，并根据查询与历史上下文的相似性进行加权。通过这种方式，PathoSage 将推理建立在对所用工具既可解释又自适应的理解之上。

PathoSage：通过经验感知的代理工作流实现病理学中的多源证据裁决

相似文章

面向基于证据的计算病理学的多模态智能体协同助手

信任但验证：通过事后对抗性审计和多智能体反馈循环减轻医疗幻觉

WiseMind：一个知识引导的多智能体框架，用于准确且富有同理心的精神疾病诊断

超越最终答案：多智能体工业工作流中轨迹级幻觉的审计

幻觉即利用：携带证据的多模态智能体

提交意见反馈