MODE-RAG：流形异常诊断与基于能量的检索增强生成评估

arXiv cs.CL 2026/06/17 04:00 论文

摘要

介绍了MODE-RAG，一个多智能体系统，利用变分自由能和蒙特卡洛树搜索动态门控干预，以减轻多模态检索增强生成系统中的幻觉，同时提供了ModeVent评估数据集。

arXiv:2606.17449v1 公告类型：新摘要：虽然多模态检索增强生成（M-RAG）增强了大型视觉语言模型，但仍然极易受到跨模态幻觉、因果捏造和谄媚的影响。此外，现有的缓解流程常常面临干预悖论：静态规则往往会不必要地干扰准确的生成，而完全不加引导的多模态推理则会导致现有不匹配级联成严重的逻辑捏造。为了量化和缓解这些幻觉，我们提出了一个多智能体系统MODE-RAG，它由变分自由能（VFE）和内部注意力状态驱动，动态门控干预。高风险查询被路由到五个特定阶段的智能体，集成蒙特卡洛树搜索（MCTS）进行严格的因果推导，并通过logit扰动来惩罚谄媚。专门的修正和监督智能体确保格式稳定性并进行事后事实验证。为了客观评估我们的方法，我们引入了ModeVent，这是一个从MultiVent数据集中衍生的具有挑战性的子集。大量实验表明，我们的系统有效降低了幻觉率和逻辑捏造，显著提高了M-RAG系统的鲁棒性。

查看原文

查看缓存全文

缓存时间: 2026/06/17 05:40

# MODE-RAG：流形离群诊断与基于能量的检索增强生成评估
来源：https://arxiv.org/html/2606.17449
Zehang Wei2∗, Jiaxin Dai2∗, Jiamin Yan2, Xiang Xiang1∗ 
1华中科技大学计算机科学与技术学院 
2华中科技大学人工智能与自动化学院 
xex@hust\.edu\.cn

###### 摘要

虽然多模态检索增强生成（M-RAG）增强了大型视觉语言模型，但它仍然高度易受跨模态幻觉、因果捏造和谄媚问题的影响。此外，现有的缓解流程常常面临一个干预悖论：静态规则倾向于不必要地干扰准确的生成，而完全不加引导的多模态推理则允许现有的不匹配级联成严重的逻辑捏造。为了量化和缓解这些幻觉，我们提出了一个多智能体系统MODE-RAG，该系统由变分自由能（VFE）和内部注意力状态驱动，以动态门控干预。高风险查询被路由到五个阶段特定的智能体，集成了蒙特卡洛树搜索（MCTS）以进行严格的因果推导，并通过logit扰动来惩罚谄媚。专用的校正和监管智能体确保格式稳定性并执行事后事实验证。为了客观评估我们的方法，我们引入了ModeVent，这是从MultiVent数据集中衍生出的一个具有挑战性的子集。大量实验表明，我们的系统有效降低了幻觉率和逻辑捏造，显著提高了M-RAG系统的鲁棒性。

MODE-RAG: 流形离群诊断与基于能量的检索增强生成评估

Zehang Wei2∗, Jiaxin Dai2∗, Jiamin Yan2††footnote:同等贡献，共同第一作者., Xiang Xiang1∗
1华中科技大学计算机科学与技术学院
2华中科技大学人工智能与自动化学院
xex@hust\.edu\.cn

## 1 引言

以大型语言模型（LLM）为核心，多模态检索增强生成（M-RAG）系统现在可以通过检索外部视觉知识来处理复杂的视觉问答任务。然而，它们经常产生幻觉，对所给视觉内容生成捏造的解释。评估和缓解这些幻觉对于部署可靠的M-RAG系统至关重要。

图1：MODE-RAG框架的架构概览。该系统通过一个由VFE驱动的FE-Router解决干预悖论，该路由器根据幻觉风险（F̄\bar{\mathcal{F}}）动态路由查询。低风险输入绕过复杂推理以防止过度纠正，而高风险查询则触发解耦的五智能体干预流程。该流程使用MCTS引导的因果搜索来化解跨模态冲突，并由PORAG驱动的Overseer执行递归回退循环，以严格保证物理和逻辑保真度。

解决M-RAG幻觉需要明确识别它们何时以及为何发生。根据回答多模态查询的数据流，我们系统地跨四个生命周期阶段将M-RAG幻觉分为九种类型：

1. 感知层面（实体特征、物理常识和信息遗漏）；
2. 检索层面（检索错位和模态冲突）；
3. 推理层面（时间倒置和强加因果）；
4. 生成层面（信息捏造和主观偏差）。

分析典型的M-RAG架构揭示了触发这些幻觉的关键缺陷。传统RAG严重依赖静态流程和余弦相似度，这从根本上无法解开复杂的视觉-文本冲突。此外，现有的缓解策略从根本上陷入了干预悖论。一方面，对所有查询强制执行盲目的、基于规则的约束常常导致过度纠正，降低了固有的准确输出。另一方面，完全依赖轻量级LLM进行无引导的多步推理会引入格式不稳定性，最终触发级联结构故障并加剧多模态冲突。此外，当面对激进用户查询时，LLM内核倾向于推翻视觉证据而迎合用户——这种现象被称为谄媚。

与这些机制原因紧密相连，我们提出了MODE-RAG（因果能量RAG），这是一个基于机制的、旨在量化并动态缓解错误信息的多智能体框架。与静态流程不同，我们的系统通过一个高度解耦的架构运行：

中央枢纽（FE-Router）：由变分自由能（VFE）和内部注意力状态（ATLAS）驱动的自适应路由门控。它预先评估多模态不确定性。低风险查询绕过流程以防止过度纠正，而高风险查询则触发专门智能体。它还保留了一个自适应弃权机制，用于不可回答的查询。

感知与检索层（Per-Agent和Ret-Agent）：Per-Agent提取原子级的、坐标级别的视觉事实以防止感知遗漏。随后，Ret-Agent强制执行严格的“视觉优先”交叉对齐，修剪携带模态冲突的伪相关外部文本。

推理层（Rea-Agent）：为了消除时间倒置和强加因果，该智能体采用蒙特卡洛树搜索（MCTS）从视觉日志中构建严格的因果有向无环图（DAG），确保逐步逻辑保真度。

为了评估我们的方法，我们构建了ModeVent，这是从MultiVent数据集（MAGMaR）中提取的一个子集。我们利用VFE识别不确定性分布的极端值，选取500个最高风险的边界案例（流形离群点）和500个最低风险的稳定样本。虽然后者作为可靠的基线，但前者作为对抗性查询，在视觉-文本冲突下严格测试M-RAG模型。因此，ModeVent提供了一个严格的环境来评估系统对上述九种幻觉类型的鲁棒性。

总之，我们的主要贡献包括：

- 我们提出了MODE-RAG，一个基于机制的多智能体框架，用于缓解多模态幻觉。其核心是FE-Router，一种由变分自由能和内部注意力状态驱动的自适应门控机制，它通过避免在准确输出上进行冗余过度纠正，有效解决了干预悖论。
- 我们设计了解耦的、阶段特定的算法干预措施来解决复杂的跨模态不匹配。值得注意的是，我们集成了蒙特卡洛树搜索（MCTS）来推导严格的因果逻辑图，并采用logit级别扰动以及一个Overseer双奖励验证模块，从根本上抑制模型谄媚、逻辑捏造和级联格式失败。
- 我们构建并发布了ModeVent，一个从MultiVent数据集衍生出的定向评估基准。大量实验表明，我们的架构在显著减少幻觉和增强复杂多步推理鲁棒性方面具有优越的可行性。

## 2 相关工作

检索增强生成（RAG）最初是为了通过整合外部证据来缓解大型语言模型（LLM）的知识缺陷而开发的(Lewis et al. 2020)；Gao et al. 2023。随着Qwen-VL等多模态核心的发展(Bai et al. 2023)，M-RAG已扩展到复杂的视觉问答任务(Chen et al. 2022)；Yasunaga et al. 2022。然而，这些系统的性能本质上受限于检索内容的质量；不相关或嘈杂的上下文会显著降低模型保真度(Yoran et al. 2024)；Cuconasu et al. 2024。在多模态场景中，这通常表现为跨模态幻觉，即模型生成的解释与所给视觉证据相矛盾(Ji et al. 2023)；Li et al. 2023。虽然一些方法尝试自检机制(Asai et al. 2024)，但它们难以适当平衡纠正边界。这些方法要么施加过于严格的约束，惩罚忠实的视觉解释，要么提供不足的干预，从而无法防止模型在复杂查询处理过程中固有的谄媚和逻辑漂移。因此，这种干预悖论在当前静态流程中仍未解决。为了缓解固定间隔检索的低效，最近的研究已转向动态检索机制。例如，DRAGIN(Su et al. 2024)基于模型不确定性检测实时信息需求，而Speculative RAG(Wang et al. 2024)和MemoRAG(Qian et al. 2024)利用草稿和认知记忆系统提高一致性。

为了有效解决这些幻觉，需要在检索和感知阶段对流形离群点进行系统诊断。当处理来自CLIP(Radford et al. 2021)或SigLIP(Zhai et al. 2023)等编码器的特征向量时，由于特征维度各向异性，传统距离度量常常失效。已探索了如K近邻（KNN）等无监督几何方法来评估潜在空间中的样本稀疏性(Sun et al. 2022)，而全局白化变换可以确保各向同性的流形，以实现更好的语义匹配(Su et al. 2021)。与静态流程不同，一个更稳健的方法需要一个动态门控机制，该机制可以预先评估检索内容的风险并决定是否需要干预。

从机制角度看，模型对错误信息的敏感性可以通过监控其内部状态来量化。基于能量模型（EBM）和亥姆霍兹自由能（HFE）原理(Liu et al. 2020)；Friston 2010，最近的工作(Sakhinana et al. 2025)引入了基于注意力的透明潜在评估系统（ATLAS），并建议使用蒙特卡洛树搜索（MCTS）来验证推理轨迹。ATLAS探测内部注意力状态和与困惑度相关的指标以评估多模态不确定性，从而决定何时以及检索什么。同时，LLM推理的最新范式转变表明，在推理（测试时）期间扩展计算规模可以显著增强复杂问题的解决能力。诸如测试时计算（TTC）(Ji et al. 2025)和递归深度扩展(Geiping et al. 2025)等技术动态调整推理深度。为了导航复杂的逻辑空间，结构化搜索算法如MCTS已被集成到LLM解码中，如Marco-o1(Zhao et al. 2024)和STILL-1(Jiang et al. 2024)所示，而AStar(Wu et al. 2025)将这些结构化推理方法扩展到多模态任务。在这项工作中，我们将这些先进的诊断和推理工具集成到一个解耦的多智能体框架中。我们在自适应FE-Router中利用ATLAS来解决干预悖论，并利用MCTS构建严格的因果有向无环图（DAG），确保逐步的结构逻辑一致性，并在M-RAG生命周期中从根本上抑制谄媚。

## 3 数据集

为了评估多模态检索增强生成（M-RAG）系统在面对跨模态冲突和机制故障时的鲁棒性，我们引入了ModeVent，一个诊断性基准。

### 3.1 构建方法

ModeVent的构建涉及对整个MultiVent数据集潜在空间的系统诊断。选择过程分为三个阶段：

首先，我们对MultiVent总体中的所有样本执行全尺寸评估。使用SigLIP和CLIP编码器提取特征向量，随后进行全局白化变换，以确保各向同性的流形，其中欧氏距离能够忠实代表语义不相似性。

其次，对于每个评估样本，我们计算其平均VFE。该指标作为模型认知不确定性的机制代理，捕捉视觉场景与用户主张之间的冲突程度。

第三，我们不使用任意的硬阈值，而是根据计算出的VFE分数对整个总体进行排序。然后，我们选择VFE值最高的500个样本作为流形离群点，以及VFE值最低的500个样本作为稳定内点。这构成了一个包含1,000个样本的最终基准，代表不确定性分布的两个极端。

### 3.2 数据集特性

ModeVent的双峰组成允许对干预悖论进行严格评估。高VFE子集代表了类似对抗性的边界情况，模型最易受谄媚或因果强加影响。在这些情况下，语义稳定性显著较低，噪声比升高，如我们在图2中的定量分析所示。

相反，低VFE子集提供了对齐良好的多模态查询的稳定基线。这确保了可以测试MODE-RAG门控机制绕过不必要干预的能力，从而在没有检测到显著冲突时，保持底层LLM内核的固有准确性。通过针对这些极端情况，ModeVent提供了比标准多模态数据集更具挑战性和信息量的评估环境。

## 4 方法论：MODE-RAG框架

我们提出了MODE-RAG（多模态客观诊断能量-RAG），一个旨在解决多模态推理中干预悖论的多智能体框架。该架构被结构化为一个分层的、能量门控的系统，仅当检测到认知不确定性时才选择性地触发高保真推理。如图所示的系统示意图，该框架包括一个诊断数据流程、两个门控机制和一个解耦的五智能体流程。

### 4.1 热力学门控：FE-Router

MODE-RAG系统的入口点是FE-Router，它充当一个“热力学门”。利用ATLAS探针，路由器通过计算预测分布的变分自由能（VFE）来执行实时能量检测(Friston 2010)。对于具有词汇表V V和logit输出f(x) f(x)的模型，给

MODE-RAG：流形异常诊断与基于能量的检索增强生成评估

相似文章

SEMA-RAG：一种用于医学推理的自进化多智能体检索增强生成框架

MM-BizRAG：重新思考面向通用企业问答的多模态检索增强生成

RAGognizer：通过检测头集成实现幻觉感知微调

HKUDS/RAG-Anything

检索增强生成中的证据图一致性：一种模型依赖的幻觉检测分析

提交意见反馈