超越语义相似度:面向企业信用承保的两阶段非参数检索工作流

arXiv cs.CL 论文

摘要

提出了一种面向企业信用承保的两阶段非参数检索工作流,将高召回率检索与效用排序分离,并采用本地部署的开源模型以符合合规要求。该系统解决了金融文档分析中标准RAG管道的相似性-效用差距问题。

arXiv:2605.20684v1 公告类型:新 摘要:企业信用承保要求分析师从长达数百页、多语言、异构的金融文档中提取可操作的证据。标准的检索增强生成(RAG)管道针对语义相似度进行优化,这常常会检索到主题相关但缺乏决策效用的段落,我们将这一问题称为相似性-效用差距。我们提出了一种两阶段非参数检索架构,将高召回率的候选检索与高精度的效用排序分离。第一阶段结合词汇检索和密集多语言检索,构建一个广泛的候选池。第二阶段应用自适应检索控制器,利用查询意图和文档结构信号对候选进行过滤,随后采用LLM作为评判的效用评分机制,根据分析有用性而非语义接近度对段落进行排序。 一个上下文感知的提取模块保留了叙事文本和复杂财务表格的结构保真度。该系统完全部署在本地,以满足企业数据治理要求。在使用分析师标注的相关性标签的专有多语言金融文档语料库上评估,该系统显著优于朴素的检索基线。在生产部署中,超过800名信用分析师使用该系统,文档审阅时间从数小时缩短至约三分钟,这证明了效用感知的RAG架构在文档密集型决策支持工作流中的实际价值。
查看原文
查看缓存全文

缓存时间: 2026/05/21 06:34

# 超越语义相似性:企业信贷承销中的两阶段非参数检索工作流程

来源:https://arxiv.org/html/2605.20684

\\icmlsetsymbol

\\equal\*\{icmlauthorlist\}\\icmlauthorLinus Ng Junjiaocbcpresenting\\icmlauthorEzekiel Tee Kongquanocbc,gatech\\icmlauthorKelvin Hengocbc\\icmlauthorKenneth Zhu Keocbc\\icmlauthorZhao Jing Yuanocbc

\\icmlaffiliation

ocbc华侨银行,新加坡\\icmlaffiliationgatech佐治亚理工学院\\icmlcorrespondingauthorlinus\.ng@ocbc\.com\\icmlcorrespondingauthorezekieltee@ocbc\.com\\icmlcorrespondingauthorkelvinheng@ocbc\.com\\icmlcorrespondingauthorkennethzhu@ocbc\.com\\icmlcorrespondingauthorjingyuanzhao@ocbc\.com

\\printAffiliations

## 1 引言

企业信贷承销高度依赖于对长篇财务文档(如年度报告和行业报告)的分析[5 (https://arxiv.org/html/2605.20684#bib.bib2)]。分析师必须提取相关财务指标、评估风险披露,并从可能长达数百页、涉及多种语言的文档中综合洞察[5 (https://arxiv.org/html/2605.20684#bib.bib2)]。

检索增强生成(RAG)系统已成为辅助文档密集型工作流程的一种有前景的方法[3 (https://arxiv.org/html/2605.20684#bib.bib3),2 (https://arxiv.org/html/2605.20684#bib.bib4)]。通过从外部语料库检索支持性段落,RAG系统可以改善事实基础,减少语言模型输出的幻觉[3 (https://arxiv.org/html/2605.20684#bib.bib3),2 (https://arxiv.org/html/2605.20684#bib.bib4)]。然而,标准RAG流水线通常优先考虑查询与文档段落之间的语义相似性[3 (https://arxiv.org/html/2605.20684#bib.bib3)]。在金融分析任务中,这一目标往往与分析师的真实需求不一致[5 (https://arxiv.org/html/2605.20684#bib.bib2)]。

财务文档通常包含叙述性描述、监管披露以及重复的模板化语言[5 (https://arxiv.org/html/2605.20684#bib.bib2)]。因此,基于相似性的检索系统可能会返回与查询共享术语但缺乏可操作分析价值的段落[6 (https://arxiv.org/html/2605.20684#bib.bib1)]。我们将此问题称为**相似性-效用差距**[6 (https://arxiv.org/html/2605.20684#bib.bib1)]。

为应对这一挑战,我们提出了一种专门为企业决策支持工作流程设计的检索架构[6 (https://arxiv.org/html/2605.20684#bib.bib1)]。我们的系统引入了一个两阶段流水线,将高召回率检索与高精度效用排名分离[6 (https://arxiv.org/html/2605.20684#bib.bib1)]。该架构结合了混合词汇-语义检索、自适应候选筛选以及一个以效用为基础的排名框架,在该框架中,语言模型根据段落的分析有用性对其进行评估[5 (https://arxiv.org/html/2605.20684#bib.bib2),6 (https://arxiv.org/html/2605.20684#bib.bib1)]。

该系统专为在受监管的金融环境中部署而设计,完全使用自托管开源模型在本地运行。这确保了严格遵守数据治理政策的同时,保持较高的检索性能。

我们的主要贡献是:

- • 一种以效用为基础的检索框架,将段落排名与信贷承销任务中的决策有用性对齐。
- • 一个自适应检索控制器,利用查询意图和文档结构信号筛选候选段落。
- • 一个上下文感知的提取模块,保留叙述性和表格化财务内容中的结构信息。
- • 一个企业级部署,为分析师带来了巨大的生产力提升。

## 2 相关工作

检索增强生成已成为将大型语言模型锚定于外部知识源的广泛采用的方法[3 (https://arxiv.org/html/2605.20684#bib.bib3),2 (https://arxiv.org/html/2605.20684#bib.bib4)]。早期工作引入了使用神经嵌入从大型语料库中检索语义相关段落的密集检索方法[3 (https://arxiv.org/html/2605.20684#bib.bib3)]。结合词汇搜索与密集嵌入的混合检索方法进一步提高了异构文档集合中的召回率[4 (https://arxiv.org/html/2605.20684#bib.bib5)]。

最近的研究探索了使用语言模型作为评估器来对检索内容进行排名[7 (https://arxiv.org/html/2605.20684#bib.bib6)]。这些**LLM作为评判者**的方法利用语言模型的推理能力来评估候选段落的质量和相关性[7 (https://arxiv.org/html/2605.20684#bib.bib6)]。此类方法已应用于问答、信息检索评估和排名任务。

在企业环境中,RAG系统还必须应对与数据治理、隐私和可审计性相关的约束。金融和法律机构通常要求本地部署和可追溯的来源归因,这引入了超出模型性能的额外设计考量。

我们的工作通过提出一种专门优化企业工作流程中分析效用的检索架构,为这一领域做出贡献。通过结合混合检索、自适应候选控制和基于效用的排名,该系统优先包含可操作财务证据的段落,而非仅仅语义相似的文本。

## 3 方法

### 3.1 问题设定

企业信贷承销要求分析师从冗长、异构的财务文档(如年度报告和行业报告)中验证所报告的财务报表。这些文档通常包含密集的叙述性部分、多语言评论和非结构化的财务表格。传统的RAG流水线主要基于语义相似性检索段落,这常常导致内容虽与主题相关但对决策无用。

我们将任务形式化为检索和排名一组文档片段,以最大化决策效用而非语义相似性。给定一个用户查询 \(q\) 和一个长篇财务文档集合 \(D=\{d_1,d_2,...,d_n\}\),目标是识别一组段落 \(P^* \subset D\),其中包含与信贷承销决策相关的可验证证据。

我们的系统引入了一个两阶段检索和重排名架构,旨在弥合语义相似性与决策效用之间的差距,同时完全在本地环境中运行。

### 3.2 系统概述

所提出的架构由五个主要组件组成:文档摄入、混合候选检索、自适应检索控制器、基于效用的重排名和上下文感知的证据提取。

整个流水线的概念性图示如下:

\[
q_{\text{statement}} \rightarrow R_{\text{hybrid}}(D) \rightarrow C_{\text{adaptive}} \rightarrow J_{\text{utility}} \rightarrow E_{\text{context}}
\]

其中 \(q_{\text{statement}}\) 是一个补充了相应财务报表的查询,\(R_{\text{hybrid}}\) 检索初始候选池,\(C_{\text{adaptive}}\) 使用查询感知推理过滤候选,\(J_{\text{utility}}\) 按决策有用性对候选进行排名,\(E_{\text{context}}\) 提取最终证据。

### 3.3 文档摄入

企业财务文档根据文档布局线索被分割成结构化部分。每个片段都附带元数据进行索引,包括文档来源、章节标题和页号引用。这一预处理步骤确保下游组件在检索和提取过程中能够利用结构信息。

### 3.4 阶段1:混合候选检索

第一阶段执行广泛检索,以最大化跨多语言和异构财务文档的召回率。

给定一个查询 \(q\),我们使用结合关键词检索和多语言嵌入密集语义检索的混合检索策略,检索初始候选集 \(C_0\):

\[
C_0 = \text{TopK}_{\text{kw}}(q,D) \cup \text{TopK}_{\text{embed}}(q,D)
\]

在混合检索中,关键词检索保持了财务术语的精确性,而语义检索则捕获了改写或上下文引用。

TopK值的选择在此阶段是一个关键超参数:设置过低会限制传递给后续阶段的候选池,而设置过高则削弱了初始检索的价值。当TopK值设为50时,会得到一个高召回率的候选段落池供进一步处理。

### 3.5 阶段2:自适应检索控制器与基于效用的重排名

并非所有检索到的段落都对信用分析有用。财务报告包含样板式披露、法律说明和叙述性部分,这些可能与查询语义相关,但对承销决策无关紧要。

为解决此问题,我们引入了一个自适应检索控制器,利用查询意图和文档结构来评估候选段落。

给定候选段落 \(C_0=\{p_1,...,p_k\}\),控制器预测给定段落的相关性和支持性:

\[
\begin{aligned}
\text{Rel}_i &= f(q_{\text{statement}}, p_i, m_i) \\
S_i &= f(q_{\text{statement}}, p_i, m_i) \\
U_i &= f(q_{\text{statement}}, p_i, m_i)
\end{aligned}
\]

其中:

- • \(q_{\text{statement}}\) 是补充了相应财务报表的查询
- • \(p_i\) 是候选段落
- • \(m_i\) 表示结构元数据
- • \(\text{Rel}_i\) 表示候选段落的相关性(布尔值)
- • \(S_i\) 表示候选段落的证据支持性(布尔值)
- • \(U_i\) 表示候选段落的效用分数(数值评分)

该控制器使用一个轻量级语言模型实现,评估一个段落是否可能包含相关和支持性信息。

此阶段产生一个精炼的候选集:

\[
C_1 = \{p_i \in C_0 \mid (S_i) \cdot [\text{Rel}_i]\}
\]

其中 \(S_i \cdot [\text{Rel}_i]\) 表示逻辑条件:除非 \(\text{Rel}_i\) 成功,否则 \(S_i\) 实际上被无效化。这一机制在概念上与根据模型推理而非固定流水线进行条件检索的自适应检索策略相关[1 (https://arxiv.org/html/2605.20684#bib.bib8)]。

剩余候选按照决策效用进行排名,使用LLM作为评判者框架。评判者不测量与查询的相似性,而是基于每个段落对承销决策的有用性进行评估。给定段落 \(p_i\),评判者产生一个效用分数:

\[
J_1 = \{p_i \in C_1 \mid U_i \geq U_{\text{threshold}}\}
\]

其中 \(U_i\) 是效用分数,\(U_{\text{threshold}}\) 是可调的效用分数阈值。\(U_{\text{threshold}}\) 是架构中的一个关键超参数,平衡最终证据集的精确率和召回率。较低的 \(U_{\text{threshold}}\) 通过接纳更大的段落集来提高召回率,这适用于探索性查询或分析师需要广泛全面覆盖的场景。相反,较高的 \(U_{\text{threshold}}\) 优先考虑精确率,仅返回具有最高决策效用的段落,这非常适合需要精炼证据的目标性查询。

基于效用的重排名机制使得系统能够优先包含财务指标和行业信号的段落。

### 3.6 上下文感知的证据提取

财务文档经常包含复杂的表格、脚注和结构化的子部分。简单的分块提取可能会扭曲含义、破坏结构关系或导致归因丢失。因此,我们引入了一个上下文感知的提取模块,根据文档结构动态选择适当的提取策略。

根据源内容的结构,采用两种提取模式。对于叙述性部分,相关的文本跨度通过Markdown感知的分割提取,这保留了结构元素,如章节标题、项目符号列表和段落边界。

当信息出现在表格或结构化财务报表中时,系统区分复杂表格和非复杂表格。非复杂表格(具有单级标题和规则网格结构的表格)被解析以提取相关行或单元格。相反,包含多级标题、层次化索引、合并单元格或不规则布局的复杂表格则连同源元数据(包括文档名称和页号引用)一起保留,以支持手动验证和准确的来源归因。

使用两种提取模式:

- • **局部化段落提取**:对于叙述性部分,使用Markdown感知的分割提取相关文本跨度。这保留了结构标记,例如:
    - – 章节标题
    - – 项目符号列表
    - – 段落边界
- • **高保真表格引用**:当信息位于表格或结构化财务报表内时,系统将表格分类为复杂表格或非复杂表格:
    - – 复杂表格:多级标题、层次化行索引、不规则结构或需要特殊处理的合并单元格
    - – 非复杂表格:单级标题和行索引,具有规则格式的良好结构化网格

对于非复杂表格,系统执行结构化表格解析以提取相关行或单元格。对于复杂表格,系统不尝试解析结构,而是保留完整的表格上下文,包括源元数据(如文档名称和页号引用)。这些信息作为辅助信息附加,以支持手动验证和引用。

这种方法确保提取的财务指标保持可解释性,并能够可靠地追溯到原始文档上下文,同时适应不同报告中的表格多样性和结构复杂性。

## 4 系统架构

所提出的系统由五个主要组件组成:文档摄入、混合检索、自适应候选控制、基于效用的重排名和上下文感知提取。

图1 (https://arxiv.org/html/2605.20684#S4.F1) 展示了整体流水线。

![Figure 1: Utility-grounded retrieval architecture for long-document financial analysis.](https://arxiv.org/html/2605.20684#S4.F1)

为满足企业信贷承销中的监管和数据治理约束,所提出的系统完全部署在本地环境中,所有组件在企业控制的基础设施下执行。这确保了敏感财务数据在流水线的所有阶段保持本地化。

部署架构在结构上与第3.2节中提出的公式相符,并通过一组自托管模块实现,每个阶段无需依赖外部服务。

- • **检索基础设施**:混合检索通过本地索引文档集合上的词汇和密集检索机制组合实现。基于关键词的检索在结构化索引上运行,而密集检索则通过多语言嵌入启用,

相似文章

超越语义相似性:通过直接语料库交互重新思考智能体搜索的检索

Hugging Face Daily Papers

论文提出了直接语料库交互(DCI),这是一种新颖的方法,允许AI代理使用标准终端工具直接查询原始文本,而不是传统的基于嵌入的检索。通过绕过固定的相似性接口和离线索引,DCI在多个信息检索和智能体搜索基准上显著优于传统的稀疏、密集和重排序基线。

MM-BizRAG:重新思考面向通用企业问答的多模态检索增强生成

arXiv cs.CL

MM-BizRAG 是一个面向企业问答的多模态检索增强生成系统,通过文档结构感知分割和版式感知解析,在异构企业文档上的表现比以视觉为中心的基线方法最高提升 32%。该论文还提出了 FastRAGEval——一种基于 LLM 的高效评估指标,其与人类判断的对齐程度优于 RAGChecker,且成本更低。