FinAcumen:基于自演化经验记忆框架的金融多模态推理

arXiv cs.AI 论文

摘要

FinAcumen是一个框架,它将先前轨迹中的推理经验累积到持久记忆库中,用于金融多模态推理,在四个基准测试上提升了性能,同时保持冻结的8B视觉语言模型不变。

arXiv:2606.17642v1 公告类型:新 摘要:金融多模态推理要求智能体协调数值计算、检索、视觉解释以及跨异构证据源的时间定位。现有的工具增强型智能体提高了执行保真度,但在多个回合中仍基本保持无状态,反复重新发现推理策略和失败模式。在高风险的金融环境中,这导致不可靠的工具路由、噪声检索和易产生幻觉的推理。我们提出了 FinAcumen,这是一个以选择性经验记忆为核心的工具增强型多模态推理的金融推理智能体框架。FinAcumen 从先前轨迹中累积金融领域特有的推理经验,将成功策略和失败得出的警示规则提炼到持久记忆库中。在推理过程中,只有当语义相关性超过校准阈值时,检索到的经验才会影响推理,而无关记忆则通过回退机制被明确抑制。一个确定性的金融工具环境进一步为数值计算、检索、视觉解码和答案验证提供基础。在四个金融多模态推理基准测试中,FinAcumen 始终稳定地改进了一个冻结的8B视觉语言模型,其表现优于金融专业模型,并接近领先的专有通用模型。进一步分析表明,选择性经验激活在检索不确定性下提高了推理可靠性。我们的代码匿名发布于 https://anonymous.4open.science/r/FinAcumen
查看原文
查看缓存全文

缓存时间: 2026/06/17 05:37

# FinAcumen: 通过自演进经验记忆实现金融多模态推理
**来源**: https://arxiv.org/html/2606.17642

Pianran Guo¹,\*, Pengcheng Zhou²,\*, Yuchen Jian¹, Shuhua Chen¹  
¹北京邮电大学,²伦敦玛丽女王大学  
[email protected], [email protected], [email protected], [email protected]  
\*同等贡献

###### 摘要

金融多模态推理要求智能体协调数值计算、检索、视觉解读和跨异构证据源的时间定位。现有工具增强型智能体在执行保真度方面有所改进,但在不同问题之间基本无状态,反复发现推理策略和失败模式。在高风险的金融环境中,这导致不可靠的工具路由、噪声检索和易产生幻觉的推理。我们提出FinAcumen,一个以选择性经验记忆为核心的金融推理智能体框架,适用于工具增强型多模态推理。FinAcumen从先前的轨迹中积累基于金融的推理经验,将成功策略和从失败中提取的警示规则提炼到持久记忆库中。在推理时,只有当检索到的经验的语义相关性超过校准阈值时,才会参与推理;否则,通过回退机制明确抑制无关记忆。一个确定性的金融工具环境进一步支撑数值计算、检索、视觉解码和答案验证。在四个金融多模态推理基准上,FinAcumen一致地提升了冻结的8B视觉语言模型,超越金融专用模型,并接近领先的通用专有模型。进一步分析表明,选择性经验激活提高了检索不确定性下的推理可靠性。我们的代码匿名发布在:https://anonymous.4open.science/r/FinAcumen

---

## FinAcumen: 通过自演进经验记忆实现金融多模态推理

Pianran Guo¹,\*, Pengcheng Zhou²,\*, Yuchen Jian¹, Shuhua Chen¹  
¹北京邮电大学,²伦敦玛丽女王大学  
[email protected], [email protected], [email protected], [email protected]  
\*同等贡献

---

## 1 引言

参见图注  
图1:本工作中评估的四个金融多模态基准的示例项。

金融多模态推理要求智能体协调来自文本、表格、图表和时间索引记录的异构证据。与传统的问答不同,这一设置同时要求视觉解读、数值计算、检索和跨多个交互模态的时间定位。图1(https://arxiv.org/html/2606.17642#S1.F1)展示了我们评估的四个基准的示例项。

最近的基准揭示了这一挑战的互补方面,包括基于SEC的数量定位、以图表为中心的数字推理、时间感知的多模态检索以及易产生幻觉的金融分析(Koncel-Kedziorski et al., 2023 (https://arxiv.org/html/2606.17642#bib.bib11);Tang et al., 2025 (https://arxiv.org/html/2606.17642#bib.bib6);Zhu et al., 2025 (https://arxiv.org/html/2606.17642#bib.bib4);Luo et al., 2025 (https://arxiv.org/html/2606.17642#bib.bib5))。尽管多模态大语言模型取得了快速进展,但可靠的金融推理仍未解决。通用模型在复杂多模态设置下缺乏基于金融的推理策略,而金融专用模型在其调优分布之外通常表现出有限的鲁棒性(Liu et al., 2025 (https://arxiv.org/html/2606.17642#bib.bib1);Huang et al., 2024 (https://arxiv.org/html/2606.17642#bib.bib2);Caillaut et al., 2025 (https://arxiv.org/html/2606.17642#bib.bib3))。最近的证据表明,即使在分布接近的任务上表现具有竞争力的模型,也可能在图表密集和检索密集的设置中严重失败,这表明仅靠静态微调无法提供适应异构模态组合的推理策略(Dai et al., 2026 (https://arxiv.org/html/2606.17642#bib.bib19);Deng et al., 2026 (https://arxiv.org/html/2606.17642#bib.bib25))。在高难度设置中,性能尤其受限,基准领先者在检索模糊、多步数值推理和易产生幻觉的评估中仍表现出显著的性能下降(Tang et al., 2026 (https://arxiv.org/html/2606.17642#bib.bib21), 2025 (https://arxiv.org/html/2606.17642#bib.bib6);Luo et al., 2025 (https://arxiv.org/html/2606.17642#bib.bib5);Zhu et al., 2025 (https://arxiv.org/html/2606.17642#bib.bib4))。

在实际的金融分析工作流中,人类专家不仅依赖领域知识,还依赖关于何时检索证据、调用工具、交叉检查模态以及验证中间结论的累积经验。ReAct等工具增强型范式将计算和感知外部化,但在不同问题之间仍保持无状态,并反复发现推理程序(Yao et al., 2023 (https://arxiv.org/html/2606.17642#bib.bib13))。现有的基于记忆的范式通过存储先前的反思或轨迹部分解决了这一限制,但它们通常将成功和失败的经验混为一谈,检索弱相关的指导,并在没有控制检索质量的情况下无限扩展(Shinn et al., 2023 (https://arxiv.org/html/2606.17642#bib.bib14);Zhao et al., 2024 (https://arxiv.org/html/2606.17642#bib.bib17);Ouyang et al., 2025 (https://arxiv.org/html/2606.17642#bib.bib7);Zhang et al., 2026 (https://arxiv.org/html/2606.17642#bib.bib9))。这种行为在金融领域尤其成问题,因为不相关的检索可能直接降低推理质量,而虚构的证据可能导致错误的分析结论(Shi et al., 2023 (https://arxiv.org/html/2606.17642#bib.bib16);Liu et al., 2024 (https://arxiv.org/html/2606.17642#bib.bib18))。FinTMMBench和FinMME等基准通过惩罚检索错误和无支持的推理使这一问题更加明确,要求系统不仅要决定检索什么,还要决定检索到的指导是否应影响推断(Zhu et al., 2025 (https://arxiv.org/html/2606.17642#bib.bib4);Luo et al., 2025 (https://arxiv.org/html/2606.17642#bib.bib5))。

我们提出FinAcumen,一个以选择性经验指导的推理为核心的金融多模态推理框架,适用于工具增强型智能体。FinAcumen引入了一个金融记忆(FM)模块,从先前的轨迹中累积基于金融的推理经验,将可重用策略与从失败中提取的警示规则分离。在推理时,只有当检索到的经验的语义相关性超过校准阈值时,才会参与推理;否则,模型明确回退到其基础推理策略以抑制噪声记忆注入。一个互补的金融工具(FT)环境为数值计算、检索、视觉解码和答案验证提供确定性支持。

我们的贡献总结如下:

1. 我们引入了一个选择性经验记忆框架,用于金融多模态智能体,将可重用的推理策略与从失败中提取的警示指导分离。
2. 我们提出了一种检索条件推断机制,其中记忆仅在足够语义相关下激活,从而在检索不确定性下实现回退。
3. 在四个金融多模态推理基准上,FinAcumen一致地将冻结的8B VLM提升到超过通用和金融专用基线,同时接近领先的专有模型。

---

## 2 相关工作

#### 金融多模态推理。
金融问答评估已从纯文本设置扩展到多模态、时间感知和易产生幻觉的基准。代表性数据集涵盖基于SEC的数量定位(BizBench,我们评估其中的SEC-NUM子集)、以图表为中心的数字推理(FinMMR)、时间多模态检索和推理(FinTMMBench),以及广泛的金融多模态评估(FinMME)(Koncel-Kedziorski et al., 2023 (https://arxiv.org/html/2606.17642#bib.bib11);Tang et al., 2025 (https://arxiv.org/html/2606.17642#bib.bib6);Zhu et al., 2025 (https://arxiv.org/html/2606.17642#bib.bib4);Luo et al., 2025 (https://arxiv.org/html/2606.17642#bib.bib5))。在建模方面,金融导向的LLM,如Fin-R1(Liu et al., 2025 (https://arxiv.org/html/2606.17642#bib.bib1))、Open-FinLLMs(Huang et al., 2024 (https://arxiv.org/html/2606.17642#bib.bib2))和LLM Pro Finance Suite(Caillaut et al., 2025 (https://arxiv.org/html/2606.17642#bib.bib3)),主要通过参数更新注入领域知识。相比之下,我们在§3(https://arxiv.org/html/2606.17642#S3)和§4(https://arxiv.org/html/2606.17642#S4)中的公式化保持骨干网络冻结,并通过固定工具套件和检索到的经验在推理时进行适应,因此性能差异可归因于经验条件作用而非模型重新训练。

#### 跨问题经验记忆。
关于跨问题智能体改进的研究可以从三个步骤来看:记忆构建、检索决策和记忆库维护。ReAct(Yao et al., 2023 (https://arxiv.org/html/2606.17642#bib.bib13))建立了工具交错推理,但保持问题局部。Reflexion(Shinn et al., 2023 (https://arxiv.org/html/2606.17642#bib.bib14))、ExpeL(Zhao et al., 2024 (https://arxiv.org/html/2606.17642#bib.bib17))、ReasoningBank(Ouyang et al., 2025 (https://arxiv.org/html/2606.17642#bib.bib7))和EchoSafe(Zhang et al., 2026 (https://arxiv.org/html/2606.17642#bib.bib9))转向跨问题的持续经验累积。在检索方面,先前的证据表明不相关的上下文会损害推理质量(Shi et al., 2023 (https://arxiv.org/html/2606.17642#bib.bib16);Liu et al., 2024 (https://arxiv.org/html/2606.17642#bib.bib18)),而Self-RAG(Asai et al., 2024 (https://arxiv.org/html/2606.17642#bib.bib15))强调了明确的检索或不检索决策。相对于这些路线,FinAcumen在§4.2(https://arxiv.org/html/2606.17642#S4.SS2)中的FM明确分离了指导与警告,通过相似性阈值检索和空返回回退激活记忆,并在提示注入之前应用去重感知排序。

---

## 3 问题形式化

**符号表示。** 我们考虑具有不相交训练和测试分割的多模态金融问答。每个实例 \( x = (q, c, I) \) 包含问题 \( q \)、文本上下文 \( c \) 和可选的图像 \( I \),正确答案 \( y^\star(x) \) 根据基准度量 \( \mu \) 评分。冻结的 VLM \( \pi_\theta \) 在固定工具套件 \( \mathcal{T} \) 上执行多轮工具增强解码(§4.4(https://arxiv.org/html/2606.17642#S4.SS4))。记忆库 \( \mathcal{M} \) 从训练轨迹填充,存储结构化经验条目。在推理时,通过嵌入相似度检索条目,并将 top-k 注入提示中(算法1(https://arxiv.org/html/2606.17642#alg1));完整的符号表见附录A(https://arxiv.org/html/2606.17642#A1)。

给定从 \( \mathcal{D}_\text{train} \) 轨迹填充的 \( \mathcal{M} \),我们寻求最大化 \( \mathcal{D}_\text{train} \) 上期望准确率的 \( \mathcal{M}^\star \):

\[
\mathcal{M}^\star \in \arg\max_{\mathcal{M}} \; \mathbb{E}_{x \sim \mathcal{D}_\text{train}} \Bigl[ \mu\bigl( \pi_\theta(x; \mathcal{M}, \mathcal{T}), y^\star(x) \bigr) \Bigr].
\]
(1)

在测试时,\( \mathcal{M}^\star \) 冻结且只读:查询可能激活存储的模式,但从不写入记忆库。最终性能报告为 \( \mathbb{E}_{x \sim \mathcal{D}_\text{test}} [ \mu( \pi_\theta(x; \mathcal{M}^\star, \mathcal{T}), y^\star(x) ) ] \)。(1)(https://arxiv.org/html/2606.17642#S3.E1)中的离散优化通过一个写入器-检索器循环(算法1(https://arxiv.org/html/2606.17642#alg1))在§4(https://arxiv.org/html/2606.17642#S4)中近似,该循环根据评分的训练轨迹构建 \( \mathcal{M} \)。

---

## 4 方法

### 4.1 概述

如§3(https://arxiv.org/html/2606.17642#S3)所定义,冻结的语言模型 \( \pi_\theta \) 在工具套件 \( \mathcal{T} \) 上运行以解决金融问题。FinAcumen 用两个组件扩展了此公式化,如图2(https://arxiv.org/html/2606.17642#S4.F2)所示:金融记忆(FM)和金融工具(FT)。FM 使模型能够从其自身的解决方案轨迹中累积经验,并将其作为新问题的指导进行检索,通过多轨迹采样构建一个广义策略和防护规则的库。FT 提供了一个确定性执行层,将计算、数据检索、视觉解码和答案整合从生成过程中卸载。该流水线在累积和推理之间共享,将记忆检索隔离为唯一的条件作用路径。

参见图注  
图2:FinAcumen 流水线。通过多轨迹采样的经验累积存储在 FM 中,作为广义策略和防护规则。在推理时,检索语义相似的条目并提供作为上下文指导;当没有条目符合条件时,模型仅使用 FT 进行。

### 4.2 金融记忆

#### 记忆库结构。
\( \mathcal{M} \) 中的每个条目是一个已完成问题的结构化记录,包含原始问题、其正确答案以及提炼的经验。经验由两部分组成:从达到正确答案的轨迹中概括的策略,以及从没有达到正确答案的轨迹中提取的警示规则。

#### 记忆整合。
对于模型遇到的每个问题,框架生成多个来自 \( \pi_\theta \) 的独立解决方案轨迹,使用多样化解码,根据正确答案进行评分,并将评分集提供给一个汇总智能体。设 \(\{ \mathrm{Traj}_1, \dots, \mathrm{Traj}_K \}\) 表示问题 \( x \) 的轨迹,正确答案为 \( y^* \),并令 \( s_k = \text{Score}(\mathrm{Traj}_k, y^*) \) 为分配给每个轨迹的正确性分数。汇总智能体合成两个输出:

\[
(S, C) = \text{Summarize}\bigl( \{ (\mathrm{Traj}_k, s_k) \}_{k=1}^K, \; y^* \bigr),
\]
(2)

其中 \( S \) 收集来自成功轨迹的策略,\( C \) 收集来自失败轨迹的警告。这些与原始问题和答案一起写入新条目,逐步扩展记忆库以供未来检索。

#### 记忆激活。
在推理时,查询 \( x \) 通过共享编码器 \( E(\cdot) \) 嵌入到与记忆库相同的语义空间中。它与每个条目 \( m \) 的相似度由向量上的余弦距离定义:

\[
\text{sim}(x, m) = \frac{E(x) \cdot z_m}{\|E(x)\| \, \|z_m\|},
\]
(3)

其中 \( z_m \) 表示条目 \( m \) 的预存储嵌入。通过校准阈值 \( \tau \) 的条目形成候选集:

\[
\mathcal{M}_x = \{ m \in \mathcal{M} \mid \text{sim}(x, m) \ge \tau \},
\]
(4)

然后去重和排序。排名靠前的子集 \( \mathcal{M}_x^* \) 被渲染为一个结构化前缀,放在问题提示之前。模型通过工具增强生成最终答案 \( y \)。

相似文章

从多模态经验中学会学习

arXiv cs.AI

本文介绍了AutoMMemo,一个使多模态智能体能够自动设计记忆机制(可表达为可执行的备忘录程序)以从多模态交互轨迹中学习的框架,在GUI/Web导航和视觉推理基准上优于无记忆和固定记忆基线。

Faithful-MR1: 通过锚定与强化视觉注意实现可信的多模态推理

arXiv cs.CL

Faithful-MR1 是一个训练框架,通过 <Focus> 令牌锚定视觉注意,并利用反事实图像干预强化可信使用,从而提升多模态大语言模型(MLLM)中可信的多模态推理能力。它在使用更少训练数据的情况下,在 Qwen2.5-VL 骨干网络上的表现优于基线模型。