从准确性到可审计性:金融AI系统中的确定性综述
摘要
本综述研究了金融AI系统中的计算非确定性,涵盖表格模型、图网络和基于LLM的工作流,并提出了一个用于可审计性的分层评估框架。
arXiv:2605.23955v1 公告类型:new
摘要:在受监管的金融环境中部署机器学习——信用风险、欺诈检测和反洗钱——暴露了算法可重现性的关键脆弱性。早期的金融机器学习虽然解决了如回测过拟合等统计挑战,但深度神经网络和生成式AI引入了源于硬件和架构的机械非确定性。本综述从系统视角审视了当前金融AI中三种主要模态的可重现性失败:表格模型(事后解释方差)、图网络(随机采样和时间异步)以及基于LLM的智能体工作流(批次相关发散和轨迹漂移)。我们通过对公开金融数据集进行第一手实验来补充文献分析——量化信用评分中的解释排名不稳定性、基于GNN的欺诈检测中的预测翻转率,以及LLM实体抽取中张量并行引发的输出发散。我们提出了一个分层评估框架,将特定模态的度量(RBO, D_cos, TDI, PSD)与审计就绪性联系起来,并实证验证了logit级和语义级确定性度量的互补性。
查看缓存全文
缓存时间: 2026/05/26 09:02
# 从准确性到可审计性:金融人工智能系统中的确定性研究综述
来源:https://arxiv.org/html/2605.23955
###### 摘要
在受监管的金融环境(信用风险、欺诈检测和反洗钱)中部署机器学习,暴露了算法可复现性的关键脆弱性。尽管早期的金融机器学习解决了回测过拟合等统计挑战,但深度神经网络和生成式人工智能引入了源于硬件和架构的*机械*非确定性。本综述从系统角度审视了当前金融人工智能中三种主流模态下的可复现性失败:表格模型(事后解释方差)、图网络(随机采样和时间异步性)以及基于大语言模型的智能体工作流(批次依赖的差异性和轨迹漂移)。我们通过对公开金融数据集进行第一手实验来补充文献分析——量化信用评分中的解释排名不稳定性、基于图神经网络的欺诈检测中的预测翻转率,以及大语言模型实体抽取中张量并行引发的输出差异。我们提出了一个分层评估框架,将特定模态的指标(RBO、Dcos\mathcal{D}_\text{cos}、TDI、PSD)与审计就绪性相连接,并经验性地验证了logit级别和语义级别的确定性度量之间的互补性。
## 1. 引言
在金融风险管理——信用评分、欺诈检测和反洗钱——中部署机器学习,不仅需要预测准确性,还需要算法的可复现性。这些领域的机器学习模型受到严格监管要求的约束,例如美国联邦储备委员会的SR 11-7指南、平等信贷机会法案以及欧盟人工智能法案。一个在相同输入条件下独立运行多次后输出变化显著的模型,会给法律审计带来严重挑战,无论其性能如何,都可能使其无法部署。
在本综述中,我们区分三个相关概念。计算确定性要求在相同输入、模型权重和硬件下输出比特级完全相同——这是最强的保证。可复现性是较弱的条件,即独立执行产生的输出足够一致以支持相同的下游决策(例如,相同的信贷拒绝原因),即使表面上的词元有所不同。可审计性要求任何算法决策事后都能被重构和独立验证,这至少预设了可复现性。
历史上,金融建模中的非确定性被理解为统计现象——选择偏差、多重检验和分布偏移。Harvey 等人(2016)揭示了过度拟合的“因子动物园”,而Bailey和López de Prado(2014)则形式化了选择偏差如何膨胀夏普比率。然而,一种根本不同类型的非确定性已经出现,它源于计算机制本身。现代机器学习架构通过并行加速器上的非结合浮点归约、随机算法组件(推理期间的GNN邻域采样、训练期间的dropout)以及智能体系统中的涌现不稳定性(LLM轨迹漂移)引入了非确定性。
即使研究人员固定所有随机种子并使用贪心解码,精确复现也会被硬件栈所阻碍。现代并行范式加剧了这一点:在训练期间,数据并行引入了波动的All-Reduce累积顺序,流水线并行在梯度应用中产生了时间方差;在推理期间,张量并行通过All-Gather集合注入数值噪声,动态批处理改变了注意力内核中的归约顺序。这些差异在数十亿个参数中传播,通过非线性激活级联放大为宏观变化。
监管期望与技术实践之间仍然存在显著的翻译差距。欧盟人工智能法案阐述了治理原则,但依赖标准机构来定义可接受的方差。标准指标如AUROC或F1对运行间方差不敏感。现有的合规方法通常附加事后XAI方法以满足可解释性要求,而不解决根本的机械不稳定性。
本综述系统地审视了三种模态下的非确定性:表格数据(信用评分中的事后解释方差)、动态图(欺诈检测中的随机采样和时间异步性)以及非结构化文本(智能体反洗钱工作流中的硬件级非确定性和轨迹漂移)。我们在Google Scholar和arXiv上进行了有针对性的文献检索(2018–2025),优先选择报告定量可复现性测量的工作,而非定性讨论。
#### 贡献
首先,我们区分了经典的统计可复现性问题和现代系统级的计算非确定性。其次,我们提供了跨三种模态的非确定性机制的来源验证分类,并通过在公开金融数据集上的第一手实验加以补充(第2、3和4节)。第三,我们提出了一个分层的、模态感知的评估框架——将特征归因一致性(RBO)、图嵌入方差(Dcos\mathcal{D}_\text{cos})和智能体输出一致性(TDI, PSD)与监管审计就绪性相连接——弥合了领域无关的可复现性工具与金融合规要求之间的差距。
#### 组织结构
第2节考察表格可解释性不稳定性。第3节研究基于图的欺诈检测。第4节分析LLM/智能体非确定性。第5节回顾工程解决方案。第6节提出评估指标。第7节总结。
## 2. 表格风险模型:事后可解释性中的确定性挑战
在信用和欺诈风险评估领域,基础数据模态仍然是严格的表格形式。历史上,金融机构依赖高度可解释、确定性的框架,如广义线性模型或逻辑回归。然而,追求更高预测准确性已推动行业采用高度参数化的非线性架构,特别是深度集成树(如XGBoost、LightGBM)和深度表格神经网络(如TabNet)。虽然这些模型能捕捉复杂的、非单调的特征交互,但它们作为计算黑箱运行。这直接与监管要求冲突:贷款法律如平等信贷机会法案要求明确、确定的“不利行动通知”,而反欺诈操作需要可审计的可疑活动报告。为了弥合黑箱准确性与法规合规之间的差距,机器学习社区最初采用了事后可解释人工智能框架,最著名的是LIME和SHAP。然而,将可解释性作为概率模型的事后软件补丁可能会引入可复现性失败。
### 2.1. 挑战:算法不稳定性和采样方差
表格风险模型中确定性的根本挑战源于事后归因的计算复杂性。SHAP的理论基础源于合作博弈论,需要对特征的全部幂集进行评估以计算精确的边际贡献。对于一个具有MM个特征的数据集,这需要2M2^M次模型评估,使得精确计算成为NP-hard问题。为了规避这一点,实践者依赖近似算法,主要是KernelSHAP,它从背景分布中采样二元特征联盟。这引入了一个关键脆弱性:由采样方差驱动的算法不稳定性。正如Covert和Lee(2021)所证明的,KernelSHAP估计器的方差以O(1/n)\mathcal{O}(1/n)缩放,其中nn是采样联盟的数量。因此,在完全相同的信用申请上、使用完全相同的底层模型但不同随机种子的两次独立KernelSHAP执行,将产生不同的特征重要性排名。
这种方差的大小是严重的。Covert和Lee报告称,在German Credit数据集上,标准KernelSHAP需要比配对采样变体多7–13×\times的样本来收敛到稳定的均方误差阈值,而无偏估计器则需要多达17,437×\times的样本。直接的金融证据证实了这一点:Lin和Wang(2025)在信用违约数据上测量了100次XGBoost重新运行中SHAP排名的稳定性。虽然排名最高的特征是稳定的,但中等排名的特征——正是最有可能出现在面向客户的拒绝理由中的边界变量——由于初始化和采样方差,其排名位置跨度高达25个不同位置。对于审计员来说,这意味着为信用拒绝提供的法律原因是非确定性的统计伪影。
### 2.2. 挑战:解释漂移和对抗脆弱性
除了内部采样方差之外,事后解释器对局部数据几何形状表现出极端敏感性,导致解释漂移。由于LIME和KernelSHAP等算法通过扰动输入来观察黑箱模型的局部行为,解释器的决策边界本质上很脆弱。Slack等人(2020)的开创性研究证明,这种采样机制可以被主动利用。攻击者可以训练一个存在偏见的“脚手架”模型,该模型在实际数据分布上执行歧视性贷款政策,但在解释器扰动的分布上表现良性。在他们的实验中,对抗性攻击在金融数据集上85–100%的留存实例中,将真实的敏感特征从顶部解释排名中移除。
即使没有恶意干预,自然数据漂移也会触发这种脆弱性。一个连续特征(例如,申请人的收入变化几个百分点)的微小、不可察觉的变动通常会使模型的最终风险评分保持不变,但完全打乱了局部扰动邻域,从而彻底改变了最终的SHAP特征层次。这证明事后工具估计的局部决策边界缺乏可靠模型风险管理所需的数学稳定性。
### 2.3. 缓解措施
三种结构性解决方案在解释层强制执行确定性。
TreeSHAP。Lundberg等人开发了针对树集成(XGBoost、LightGBM)的TreeSHAP,通过在O(TLD2)\mathcal{O}(TLD^2)时间内将Shapley计算推入树结构来计算精确归因。这无需随机近似即可恢复比特级确定性。
可解释增强机(EBM)。EBM放弃了黑箱范式:每个特征对fj(xj)f_j(x_j)的贡献通过独立的浅层树单独计算,最终预测为g(E[y])=β0+∑jfj(xj)g(E[y])=\beta_0+\sum_j f_j(x_j)。不需要扰动或采样——解释可以从静态查找表中读取。
稳定性感知训练。针对成本敏感优化会降低解释稳定性的发现,对抗性正则化惩罚在轻微输入扰动下的大归因偏移,从而平滑局部决策边界。
表7总结了这些解决方案。
表1. 表格风险建模中的确定性挑战和解决方案。
### 2.4. 实证验证
为了为上述主张提供第一手证据,我们在两个公开信用数据集上进行了受控的排名稳定性实验:UCI German Credit数据集(M=20M=20个特征,N=1,000N=1,000)和Kaggle Default of Credit Card Clients数据集(M=23M=23个特征,N=30,000N=30,000)。对于每个数据集,我们使用3个独立的随机种子训练XGBoost分类器,并使用两个解释器评估解释稳定性:KernelSHAP(采样预算为n∈{100,500,1,000,5,000}n\in\{100,500,1,000,5,000\})和TreeSHAP(精确计算)。对于50个随机采样的测试实例中的每一个,我们使用不同的PRNG种子执行每个解释器配置30次,底层模型权重保持不变。我们使用k=3k=3和k=5k=5(ECOA通常要求的不利行动理由数量)的Jaccard指数以及衰减参数p=0.9p=0.9的排名偏差重叠(RBO)来测量排名稳定性。
表2报告了结果。TreeSHAP在所有实例和两个数据集上都实现了完美确定性(J@3=J@5=RBO=1.0J@3=J@5=\text{RBO}=1.0),证实了精确结构计算完全消除了解释方差。相比之下,使用常用默认值n=100n=100个样本的KernelSHAP产生了严重不稳定的排名:在German Credit上,J@3J@3平均仅为0.76,这意味着大约每四次独立运行中就有一次为同一申请人产生不同的前三拒绝理由集。在更高维度的Credit Card Default数据集(M=23M=23)上,不稳定性更为显著(J@3=0.71J@3=0.71,J@5=0.62J@5=0.62),这与更大的特征空间扩大了排名排列空间一致。将采样预算增加到n=5,000n=5,000个样本可大幅提高稳定性(German Credit上J@3=0.97J@3=0.97,Credit Card Default上0.930.93),但仍未达到J@3=1.0J@3=1.0的要求。
表2. 每个实例30次独立运行的解释排名稳定性(50个测试实例,3个模型种子)。TreeSHAP实现了完美确定性;KernelSHAP需要>>5,000个样本才能接近稳定性。所有指标越高越好(↑\uparrow)。图1提供了互补的每个特征视图:表2测量了top-kk集合重叠,而图1显示了每个单独特征的排名跨度(30次运行中最大排名−-最小排名)。在KernelSHAP下,中等排名的特征——那些最可能出现在面向客户的拒绝理由中的特征——表现出最宽的排名跨度。相似文章
面向受监管行业的智能体AI的不同方法 - 问题探讨
总结了一种确定性的、基于约束的方法,用于在受监管金融领域构建AI智能体,其中LLM仅生成散文,数字通过加密方式密封,并通过分层结构确保可审计性。
具有随时有效保证的 AI 系统自适应审计
本文引入了一种统计框架,利用安全随时有效推断(SAVI)技术对 AI 系统进行自适应审计,旨在基于有限数据得出严谨的结论。文章提出了一种“通过赌博进行测试”的方法,以验证模型的鲁棒性,同时在自适应采样过程中控制第一类错误。
金融合规基础设施作为AI代理问责制的蓝图——包含现有技术调查
本文认为,数十年来为自动化金融交易建立的问责制基础设施为治理AI代理提供了蓝图,借鉴了FINRA规则5310和SEC规则17a-4等具体监管机制。
Open ai
文章讨论了行业共识:人工智能正变得极其强大,但在高风险任务上的可靠性仍是一个未解决的工程问题。强调当前系统优化的是合理性而非确定性真理,前进方向是分层验证系统而非单一完美模型。
I-SAFE:用于科学AI模型结构审计的Wasserstein一致性度量
本文介绍了I-SAFE,一个基于Wasserstein一致性度量的科学AI模型事后分布审计框架,它揭示了基于准确率的评估无法捕获的模型输出中的结构差异。在药物-靶点相互作用预测任务上进行了演示,该框架是模型无关的,适用于任何具有结构化输入和外部先验知识的领域。