面向金融文档问答的代理式检索增强生成
摘要
本文介绍了 FinAgent-RAG,这是一个用于金融文档问答的代理式框架,它结合了迭代检索、程序化思维推理和自适应资源分配,以提高准确性并降低成本。
arXiv:2605.05409v1 公告类型:新文章
摘要:金融文档问答(QA)需要针对散布在公司文件中的异构证据——结构化表格、文本叙述和脚注——进行复杂的多步数值推理。现有的检索增强生成(RAG)方法采用单次检索后生成的范式,难以应对金融分析中普遍存在的组合推理链。我们提出了 FinAgent-RAG,这是一个代理式 RAG 框架,编排了带有自我验证的迭代检索-推理循环,专门针对金融数值推理的精度需求而设计。该框架集成了三项领域特定创新:(1) 一个使用难负样本挖掘训练的对比式金融检索器,能够区分语义相似但数值不同的金融片段;(2) 一个程序化思维推理模块,生成可执行的 Python 代码以实现精确算术,而不是依赖容易出错的大语言模型(LLM)心算;(3) 一个自适应策略路由器,根据问题复杂度动态分配计算资源,在 FinQA 数据集上将 API 成本降低了 41.3%,同时保持了准确性。在三个基准数据集——FinQA、ConvFinQA 和 TAT-QA——上的大量实验表明,FinAgent-RAG 分别实现了 76.81%、78.46% 和 74.96% 的执行准确率,比最强的基线模型高出 5.62 至 9.32 个百分点。消融研究、针对四种 LLM 的跨骨干评估以及部署成本分析证实了该框架的鲁棒性及其在金融机构中的实际可行性。
查看缓存全文
缓存时间: 2026/05/08 08:13
# 面向金融文档问答的代理式检索增强生成
来源:https://arxiv.org/html/2605.05409 \[orcid=0009\-0008\-7053\-8988\]\\cormark\[1\]\\credit概念化、方法论、软件、验证、初稿撰写、审阅与编辑 \\credit 调查、审阅与编辑 \\cormark \[1\]\\credit监督、审阅与编辑 1\]机构=计算机科学与技术学院, 浙江大学, 城市=杭州, 邮编=310027, 国家=中国 \\cortext \[1\]共同通讯作者\.
###### 摘要
金融文档问答(QA)需要对分散在企业财报中的异构证据——包括结构化表格、文本叙述和脚注——进行复杂的多步数值推理。现有的检索增强生成(RAG)方法采用单次检索-生成范式,难以应对金融分析中普遍存在的组合式推理链条。我们提出了**FinAgent-RAG**,这是一种专为金融数值推理的高精度需求设计的代理式RAG框架,通过自验证机制编排迭代式的检索-推理循环。该框架集成了三项领域特定的创新:(1)一个*对比式金融检索器*,通过困难负样本挖掘训练,以区分语义相似但数值不同的金融段落;(2)一个*思维程序(Program-of-Thought)*推理模块,生成可执行的Python代码进行精确算术运算,而非依赖容易出错的LLM心算;(3)一个*自适应策略路由器*,根据问题复杂度动态分配计算资源,在FinQA数据集上将API成本降低了41.3%,同时保持了准确性。在三个基准数据集(FinQA、ConvFinQA和TAT-QA)上的广泛实验表明,FinAgent-RAG分别达到了76.81%、78.46%和74.96%的执行准确率,比最强的基线模型高出5.62-9.32个百分点。针对四种检索器类型和四种推理模式的设计空间系统性研究显示,领域适应组件带来了互补的收益。消融实验、基于四种大语言模型(LLM)的跨主干评估以及部署成本分析证实了该框架的鲁棒性及在金融机构中的实际可行性。我们的工作证明,在迭代代理循环中系统性地整合领域特定检索、可执行推理和自适应资源分配,能为金融文档分析带来显著收益,并为生产环境提供了可操作的部署指南。
###### 关键词:大语言模型\\sep检索增强生成\\sep金融问答\\sep代理式AI\\sep思维程序推理\\sep专家系统
\{highlights\}
* 面向金融文档问答的代理式RAG框架。
* 思维程序推理消除了88.0%的算术错误。
* 采用金融困难负样本挖掘的对比式检索器。
* 在三个基准测试中,比八个基线模型高出5.62-9.32分。
* 自适应路由器在FinQA上将API成本降低了41.3%,且准确率损失极小。
## 1 引言
金融文档问答(QA)已成为金融科技中的一项关键任务,其目标是从企业财报、收益报告和监管文件中自动提取并推理嵌入的信息\(Chen et al\.,2021 (https://arxiv.org/html/2605.05409#bib.bib6),2024 (https://arxiv.org/html/2605.05409#bib.bib4)\)。与通用领域问答不同,金融问答呈现出独特的挑战:问题通常需要多步数值推理(例如,计算同比增长率)、整合来自文本叙述和结构化表格的证据,以及具备关于金融概念和指标的领域特定知识\(Chen et al\.,2022 (https://arxiv.org/html/2605.05409#bib.bib7); Zhu et al\.,2021 (https://arxiv.org/html/2605.05409#bib.bib46)\)。
考虑来自真实收益报告的一个动机示例:
> **问题**:“2018年至2020年运营费用的复合年增长率(CAGR)是多少?”
回答此问题需要:(1)在财务表格中定位2018年的运营费用,(2)定位2020年的运营费用(可能位于不同的表格或部分),(3)应用CAGR公式 $\text{CAGR}=(V_{\text{final}}/V_{\text{begin}})^{1/n}-1$,以及(4)验证识别的值是否对应正确的行项目。单次检索可能仅揭示两个所需值中的一个,而生成器可能会幻觉缺失值或应用错误的公式。**图1** (https://arxiv.org/html/2605.05409#S1.F1) 对比了单次RAG在此示例上的失败模式与我们所提出方法的迭代策略。参见标题:图1:单次RAG与FinAgent-RAG在金融CAGR问题上的动机性对比。
大语言模型(LLMs)推动了金融自然语言处理(NLP)的发展\(Wu et al\.,2023 (https://arxiv.org/html/2605.05409#bib.bib33); Yang et al\.,2020 (https://arxiv.org/html/2605.05409#bib.bib42); Shah et al\.,2022 (https://arxiv.org/html/2605.05409#bib.bib26)\),但直接提示它们进行金融问答存在三个局限性:无法访问最新的金融数据、在复杂数值计算中出现幻觉\(Huang et al\.,2025 (https://arxiv.org/html/2605.05409#bib.bib13); Imani et al\.,2023 (https://arxiv.org/html/2605.05409#bib.bib14)\),以及不可靠的多步推理\(Wei et al\.,2022 (https://arxiv.org/html/2605.05409#bib.bib32)\)。检索增强生成(RAG)解决了知识截止时间问题\(Lewis et al\.,2020 (https://arxiv.org/html/2605.05409#bib.bib20); Guu et al\.,2020 (https://arxiv.org/html/2605.05409#bib.bib11)\),但标准的单次RAG可能会遗漏分散在财务报告多个部分的关键证据\(Liu et al\.,2024 (https://arxiv.org/html/2605.05409#bib.bib21); Gao et al\.,2024 (https://arxiv.org/html/2605.05409#bib.bib9)\),且没有机制来评估答案的可靠性。
最近在代理式AI方面的进展——基于LLM的代理迭代地规划、行动和反思\(Yao et al\.,2023 (https://arxiv.org/html/2605.05409#bib.bib43); Shinn et al\.,2023 (https://arxiv.org/html/2605.05409#bib.bib28)\)——提供了一个有希望的方向。代理式RAG通过迭代检索-推理循环扩展了这一范式\(Singh et al\.,2025 (https://arxiv.org/html/2605.05409#bib.bib29); Xi et al\.,2023 (https://arxiv.org/html/2605.05409#bib.bib34)\),但在金融领域仍 largely 未被探索,而该领域的结构化数据和数值精度要求使其特别适用。
基于上述观察,本文解决以下研究问题:
* **RQ1**: 与单次RAG和通用代理方法相比,具有迭代检索-推理循环的代理式RAG框架能否显著提高金融文档问答的性能?
* **RQ2**: 每个领域特定组件——对比式金融检索、思维程序推理、自验证和自适应路由——对整体性能有何贡献?
* **RQ3**: 在金融问答系统的设计空间中,不同的检索器和推理策略组合如何相互作用?
* **RQ4**: 迭代代理处理的计算权衡是什么,如何降低生产级金融应用的部署成本?
为了应对这些挑战,我们提出了**FinAgent-RAG**,一种专为金融文档问答设计的代理式RAG框架。虽然我们所采用的个别技术——对比学习、程序辅助推理、迭代检索——在通用NLP文献中已有确立,但它们为金融QA进行的系统性集成和领域特定适应并非微不足道,也尚未得到系统研究。这项工作的主要贡献在于这些组件的 principled 组合和领域适应;迭代代理循环作为编排骨干,实现了它们的协同效应。
我们的具体贡献如下:
1. **对比式金融检索器**:一种经过领域适应的密集检索器,使用四类困难负样本(时间、指标交换、粒度和实体交换)进行训练,以区分语义相似但数值不同的金融段落——这是通用检索器混淆“营业收入”与“运营费用”或“2019年Q3”与“2020年Q3”的关键失败模式。对比式检索器使Recall@5比通用密集检索提高了9.71个百分点。
2. **思维程序金融推理**:我们的推理器不依赖LLM的心算,而是生成可执行的Python代码进行数值计算,并在沙箱环境中执行并进行验证。这种方法减少了算术错误——金融QA中主要的失败模式,占基础系统错误的38.8%——降低了88.0%。
3. **自适应策略路由器**:一个轻量级分类器,预测问题复杂度,将简单问题路由到成本效益高的单次路径,而将复杂的多步问题引导通过完整的代理循环。在FinQA上,路由器将平均API成本降低了41.3%,同时保持了98.2%的全系统准确率,解决了生产部署中的一个关键实际问题。
4. **系统性设计空间研究**:我们在检索器类型(BM25、通用密集、混合、金融密集)和推理模式(直接、CoT、PoT、自适应)之间进行了$4\times 4$的研究,提供了检索和推理组件如何在金融问答系统中相互作用的全方位经验地图。这项研究为从业者在不同资源约束下选择配置提供了可操作的指导。
我们在三个既定的金融问答基准上评估了FinAgent-RAG:FinQA\(Chen et al\.,2021 (https://arxiv.org/html/2605.05409#bib.bib6)\)、ConvFinQA\(Chen et al\.,2022 (https://arxiv.org/html/2605.05409#bib.bib7)\) 和 TAT-QA\(Zhu et al\.,2021 (https://arxiv.org/html/2605.05409#bib.bib46)\)。实验结果表明,FinAgent-RAG在这三个基准上分别达到了76.81%、78.46%和74.96%的执行准确率,比最强的迭代基线(IterRAG)高出5.62-9.32个百分点。全面的消融实验、基于四种LLM的跨主干评估、每问题类型分析以及部署成本分析证实了该框架的鲁棒性和实际可行性。我们的错误分析显示,FinAgent-RAG将残留错误分布从算术主导(38.8%)转变为数据提取主导(29.6%),表明未来改进的明确方向。
## 2 相关工作
### 2.1 金融问答
多个基准推动了金融QA的进步:FinQA\(Chen et al\.,2021 (https://arxiv.org/html/2605.05409#bib.bib6)\)引入了8,281个需要对S&P 500报告进行数值推理的问答对;ConvFinQA\(Chen et al\.,2022 (https://arxiv.org/html/2605.05409#bib.bib7)\)将其扩展到多轮对话;TAT-QA\(Zhu et al\.,2021 (https://arxiv.org/html/2605.05409#bib.bib46)\)混合了表格和文本证据;FinTextQA\(Chen et al\.,2024 (https://arxiv.org/html/2605.05409#bib.bib4)\)解决了长篇金融问题。领域特定的语言模型——FinBERT\(Araci,2019 (https://arxiv.org/html/2605.05409#bib.bib1); Yang et al\.,2020 (https://arxiv.org/html/2605.05409#bib.bib42)\)、BloombergGPT\(Wu et al\.,2023 (https://arxiv.org/html/2605.05409#bib.bib33)\)、FLANG\(Shah et al\.,2022 (https://arxiv.org/html/2605.05409#bib.bib26)\)以及指令微调的金融LLM\(Xie et al\.,2023 (https://arxiv.org/html/2605.05409#bib.bib37),2024 (https://arxiv.org/html/2605.05409#bib.bib38)\)——推动了金融NLP的发展,而表格理解方法如TaPas\(Herzig et al\.,2020 (https://arxiv.org/html/2605.05409#bib.bib12)\)和TaBERT\(Yin et al\.,2020 (https://arxiv.org/html/2605.05409#bib.bib44)\)解决了表格推理问题,但假设表格已被预先识别。尽管取得了这些进展,现有方法要么依赖于使用昂贵标注数据进行监督微调,要么依赖无法处理金融QA中普遍存在的多步推理链的单次提示。FinAgent-RAG通过无需LLM微调即可迭代优化检索和推理的代理循环来解决这一差距。
### 2.2 检索增强生成
RAG由Lewis et al. \(2020 (https://arxiv.org/html/2605.05409#bib.bib20)\)引入,旨在将LLM输出建立在检索到的外部知识之上,建立在检索增强预训练的基础上\(Guu et al\.,2020 (https://arxiv.org/html/2605.05409#bib.bib11)\)。标准管道将密集检索器\(Karpukhin et al\.,2020 (https://arxiv.org/html/2605.05409#bib.bib19)\)与生成器配对;后续工作通过多段落融合\(Izacard and Grave,2021 (https://arxiv.org/html/2605.05409#bib.bib15)\)、大规模检索\(Borgeaud et al\.,2022 (https://arxiv.org/html/2605.05409#bib.bib3)\)、查询重写\(Ma et al\.,2023 (https://arxiv.org/html/2605.05409#bib.bib22)\)、段落重排序\(Glass et al\.,2022 (https://arxiv.org/html/2605.05409#bib.bib10)\)、主动检索\(Jiang et al\.,2023 (https://arxiv.org/html/2605.05409#bib.bib16)\)以及检索的对话交互范式\(Xie et al\.,2025 (https://arxiv.org/html/2605.05409#bib.bib40)\)对此进行了改进。Self-RAG\(Asai et al\.,2024 (https://arxiv.org/html/2605.05409#bib.bib2)\)引入了用于自适应检索决策的反思标记,而CRAG\(Yan et al\.,2024 (https://arxiv.org/html/2605.05409#bib.bib41)\)提出了在需要时触发网络搜索的纠正性检索。然而,这些方法在本质上仍是单周期的:Self-RAG决定*是否*检索,但不根据推理失败迭代*优化*查询;CRAG缺乏多步金融推理所需的结构化分解;基于集成的方法如VOTE-RAG\(Xie and Sun,2026 (https://arxiv.org/html/2605.05409#bib.bib39)\)通过并行投票缓解复合幻觉,但未解决领域特定的检索挑战。Liu et al. \(2024 (https://arxiv.org/html/2605.05409#bib.bib21)\)进一步表明,模型在长上下文的中间部分处理信息时存在困难,突显了有针对性证据选择的必要性。FinAgent-RAG将迭代检索、结构化推理和自验证统一为一个连贯的代理循环,专为金融QA定制。
### 2.3 代理式AI和LLM代理
基于LLM的代理沿两个轴取得进展:推理-行动集成——ReAct\(Yao et al\.,2023 (https://arxiv.org/html/2605.05409#bib.bib43)\)、Reflexion\(Shinn et al\.,2023 (https://arxiv.org/html/2605.05409#bib.bib28)\)——以及工具增强——Toolformer\(Schick et al\.,2023 (https://arxiv.org/html/2605.05409#bib.bib25)\)、ToolLLM\(Qin et al\.,2024 (https://arxiv.org/html/2605.05409#bib.bib24)\)。最近的综述\(Singh et al\.,2025 (https://arxiv.org/html/2605.05409#bib.bib29); Wang et al\.,2024 (https://arxiv.org/html/2605.05409#bib.bib31); Xi et al\.,2023 (https://arxiv.org/html/2605.05409#bib.bib34)\)已将代理式RAG形式化为一种范式,其中代理迭代地规划检索、对证据进行推理并自我纠正。在金融领域,代理已应用于交易\(Xiao et al\.,2024 (https://arxiv.org/html/2605.05409#bib.bib36)\)和资产管理\(Yu et al\.,2024 (https://arxiv.org/html/2605.05409#bib.bib45)\),但代理式金融QA仍未被探索。程序辅助推理——PoT\(Chen et al\.,2023 (https://arxiv.org/html/2605.05409#bib.bib5)\)和PAL\(Gao et al\.,2023 (https://arxiv.org/html相似文章
FinRAG-12B:一种经过生产验证的银行业有据可依问答方案
FinRAG-12B 是一款针对银行业检索增强生成(RAG)优化的 120 亿参数大语言模型,具备统一训练框架,可提升回答质量、引用依据的可靠性以及校准后的拒绝回答能力。该模型在引用依据方面优于 GPT-4.1,并已部署于 40 多家金融机构,在成本和延迟方面具有显著优势。
AB-RAG:自适应预算检索增强生成用于可靠问答
AB-RAG是一种无需训练、骨干无关的框架,通过估计答案置信度自适应地检索段落以进行问答,在多个骨干和数据集上提高了效率和准确性。
AgenticRAG:面向企业知识库的代理检索
本文介绍了 AgenticRAG,这是一个来自微软的框架,通过为大型语言模型(LLM)配备迭代搜索、文档导航和分析工具,增强了企业知识库的检索能力。它在多个基准测试中展示了相比标准 RAG 流水线在召回率和事实准确性方面的显著提升。
MM-BizRAG:重新思考面向通用企业问答的多模态检索增强生成
MM-BizRAG 是一个面向企业问答的多模态检索增强生成系统,通过文档结构感知分割和版式感知解析,在异构企业文档上的表现比以视觉为中心的基线方法最高提升 32%。该论文还提出了 FastRAGEval——一种基于 LLM 的高效评估指标,其与人类判断的对齐程度优于 RAGChecker,且成本更低。
SEMA-RAG:一种用于医学推理的自进化多智能体检索增强生成框架
SEMA-RAG是一种自进化多智能体RAG框架,用于医学问答,它将解读、探索和裁决解耦为三个专业智能体,在多个基准测试中相较于基线取得了显著的准确率提升。