RusFinChain:面向金融领域可验证思维链推理的俄语基准测试,配备模糊对齐评估

arXiv cs.CL 论文

摘要

介绍RusFinChain——首个面向金融领域可验证思维链推理的俄语符号基准测试,涵盖17个领域,包含5,280个参数化示例,并增强了评估指标,包括模糊数值对齐。

arXiv:2607.01388v1 公告类型:新论文 摘要:多步符号推理对于稳健的金融分析至关重要,但大多数基准测试忽略了中间推理步骤。FINCHAIN引入了可验证的思维链(CoT)评估,但仅限于英语。FINESSE-Bench包含一个俄语模块,但依赖多项选择题,缺乏步骤级监督。我们提出了RusFinChain——首个面向金融领域可验证思维链推理的俄语符号基准测试。它涵盖17个领域、172个主题,包含5,280个来自可执行Python模板的参数化示例,确保无污染评估。每个示例包含一个带有中间数值的金标准推理链,用于自动验证。我们还引入了增强型指标:模糊数值对齐(Fuzzy Numeric Alignment)和软注意力对齐(Soft-Attention Alignment)。我们在分层样本上评估了8个开源权重的大语言模型,生成了8,100个响应。结果显示存在显著的推理差距:模型在步骤对齐上的Hard F1约为0.65,但最终答案的正确率仅为约29%。我们的模糊和软指标与最终答案正确性的相关性(Spearman rho约0.48)比原始的ChainEval(rho约0.38-0.46)更强,显示出更优的诊断能力。我们发布了数据集、代码和评估框架,以促进面向俄语社区的可验证金融AI发展。
查看原文
查看缓存全文

缓存时间: 2026/07/03 05:39

# RusFinChain:面向金融领域可验证思维链推理的俄语基准与模糊对齐评估

来源:https://arxiv.org/html/2607.01388
[![[无标题图片]](https://arxiv.org/html/2607.01388v1/x1.png)M\. K\. Arabov](https://orcid.org/0000-0003-2525-1183) 喀山联邦大学 计算数学与信息技术研究所 数据分析系 喀山,俄罗斯 MKArabov@kpfu\.ru

###### 摘要

多步骤符号推理对于稳健的金融分析至关重要,然而现有大多数基准仅关注最终数值答案,忽略了实现透明性与可验证性所需的中间推理步骤。尽管近期工作引入了 FINCHAIN——首个面向金融领域的可验证思维链(CoT)基准——但它局限于英语和以美国为中心的惯例,为非英语金融生态系统留下了空白。与此同时,FINESSE-Bench 引入了一套面向考试的层级化任务套件,包含俄语模块,但其依赖多选题形式,且未提供步骤级监督。

我们提出 RusFinChain,这是首个面向金融领域可验证 CoT 推理的俄语符号化基准。我们的基准涵盖 17 个金融领域、172 个主题,包含由可执行 Python 模板生成的 5280 个独特参数化示例,确保评估不受数据污染影响。每个示例均包含含中间数值的金标准推理链,支持在步骤级和最终答案级进行自动验证。

除数据集外,我们还引入了增强版评估指标,对原有的 ChainEval 框架进行了改进:(1) 模糊数值对齐——使用高斯隶属函数实现平滑偏差惩罚,(2) 软注意力对齐——使用温度缩放 softmax 实现鲁棒的步骤匹配。我们在 RusFinChain 上评估了 8 个开源权重 LLM(DeepSeek-R1、Llama 3.1、Qwen 2.5、Mistral、Gemma、Aya 和 Phi),基于 1000 个示例的分层样本生成了 8100 个模型响应。

我们的结果揭示了显著的推理差距:尽管模型在步骤级对齐上的硬 F1 分数约为 0.65,但仅有约 29% 的最终答案数值正确。此外,我们的模糊和软指标与最终答案正确性的相关性(Spearman ρ≈0.48)高于原版 ChainEval(ρ≈0.38–0.46),展现了更强的诊断能力。我们公开了数据集、代码和评估框架,以促进俄语社区中可验证金融人工智能的研究。

*关键词* 金融推理 · 思维链 · 基准 · 俄语 · 大语言模型评估 · 模糊逻辑 · 自然语言处理

## 1 引言

大语言模型(LLM)已在广泛的金融应用中展现出强大能力,包括自动报告、情感分析、投资决策支持和风险评估(Chen et al., 2024b (https://arxiv.org/html/2607.01388#bib.bib39);Xie et al., 2026a (https://arxiv.org/html/2607.01388#bib.bib42))。然而,金融决策的高风险性不仅要求准确的预测,还需要推理过程的透明性和可验证性。监管者、审计师和最终用户需要理解模型得出特定结论的原因,尤其是在涉及多步骤数值推理时。

为满足这一需求,近期工作引入了用于评估金融领域思维链(CoT)推理的基准。Xie et al. (2026b (https://arxiv.org/html/2607.01388#bib.bib13)) 提出了 FinChain,这是首个使用可执行 Python 模板的符号化基准,能够自动验证中间推理步骤和最终答案。FinChain 涵盖 12 个金融领域的 58 个主题,并引入了基于动态时间规整(DTW)的 ChainEval 步骤级评估指标。然而,FinChain 局限于英语和以美国为中心的金融惯例,为非英语金融生态系统留下了空白。

与此同时,Stanishevskii et al. (2026 (https://arxiv.org/html/2607.01388#bib.bib17)) 引入了 FINESSE-Bench,这是一套受专业认证(类似 CFA、CMT、CFTe)启发的层级化考试导向金融任务套件,包含俄语奥林匹克模块(VLigaBench-ru)。尽管 FINESSE-Bench 提供了强大的区分能力并覆盖了专业金融知识,但其任务主要是选择题,未提供步骤级监督或可验证的推理痕迹。最近,Safder et al. (2026 (https://arxiv.org/html/2607.01388#bib.bib18)) 引入了 FinPersona-Bench,这是一个用于评估基于 LLM 的金融代理纵向行为稳定性的模拟基准,揭示了即使前沿模型在扩展金融场景中也会出现性能退化。

在本工作中,我们提出 RusFinChain,这是首个面向金融领域可验证思维链推理的俄语符号化基准。我们的基准涵盖 17 个金融领域、172 个主题,包含由可执行 Python 模板生成的 5280 个独特参数化示例,确保评估不受数据污染影响。每个示例均包含含中间数值的金标准推理链,支持在步骤级和最终答案级进行自动验证。

除数据集外,我们还引入了增强版评估指标,对原有的 ChainEval 框架进行了改进。具体地,我们提出:

1. 1. **模糊数值对齐**:使用高斯隶属函数替代硬阈值(ε=0.05)进行数值匹配,平滑惩罚偏差,反映现实世界中的重要性概念。
2. 2. **软注意力对齐**:使用温度缩放 softmax 替代硬动态时间规整,对步骤重排、插入和改写具有更强的鲁棒性。

我们在 RusFinChain 上评估了 8 个开源权重 LLM(DeepSeek-R1、Llama 3.1、Qwen 2.5、Mistral、Gemma、Aya 和 Phi),基于 1000 个示例的分层样本生成了 8100 个模型响应。我们的结果揭示了显著的推理差距:尽管模型在步骤级对齐上的硬 F1 分数约为 0.65,但仅有约 29% 的最终答案数值正确。这证实即使最先进的开源模型在多步骤金融计算中仍存在困难。此外,我们展示了模糊和软指标与最终答案正确性的相关性(Spearman ρ 高达 0.48)高于原版 ChainEval(ρ∼0.38–0.46),展现了更强的诊断能力。

我们的主要贡献如下:

1. 1. **RusFinChain**——首个俄语、可验证的金融 CoT 基准,包含 17 个领域、3 个难度级别的 5280 个独特示例。
2. 2. **模糊与软对齐度量**——新颖的评估指标,提供更平滑、更接近人类判断的推理质量评估。
3. 3. **全面基准测试**——对 8 个开源权重模型进行评估,在 17 个领域上生成 8100 个模型响应,揭示了不同领域、难度级别和推理质量之间的性能差距。

## 2 相关工作

### 2.1 金融推理基准

早期的金融基准侧重于财务报表上的问答。Chen et al. (2021 (https://arxiv.org/html/2607.01388#bib.bib1)) 引入了 FinQA,这是一个专家标注的数值推理问答数据集,附带可执行的推理程序。Chen et al. (2022 (https://arxiv.org/html/2607.01388#bib.bib2)) 将其扩展到对话式金融问答,需要更长的数值推理链。Zhu et al. (2021 (https://arxiv.org/html/2607.01388#bib.bib3)) 提出了 TAT-QA,一种结合表格和文本来源的混合格式。Islam et al. (2023 (https://arxiv.org/html/2607.01388#bib.bib4)) 引入了 FinanceBench,用于上市公司文档的问答。Chen et al. (2024a (https://arxiv.org/html/2607.01388#bib.bib5)) 引入了来自教科书和监管来源的长篇金融问题。Zhao et al. (2022 (https://arxiv.org/html/2607.01388#bib.bib6)) 提出了 MultiHiertt,用于多层层次数据的数值推理。

更全面的评估框架出现在 Xie et al. (2023a (https://arxiv.org/html/2607.01388#bib.bib7)) 提出的 PIXIU,这是一个包含模型、指令数据和基准组件的金融生态系统。Xie et al. (2024 (https://arxiv.org/html/2607.01388#bib.bib8)) 整合了数十个跨多个金融领域的数据集。Matlin et al. (2025 (https://arxiv.org/html/2607.01388#bib.bib9)) 沿着这一思路继续推进,提出了更广泛的金融语言模型评估平台。Krumdick et al. (2024 (https://arxiv.org/html/2607.01388#bib.bib12)) 引入了 BizBench,一个面向商业和金融的定量推理基准。大型金融语言模型包括 Wu et al. (2023 (https://arxiv.org/html/2607.01388#bib.bib10)) 和 Liu et al. (2023 (https://arxiv.org/html/2607.01388#bib.bib11)),它们分别推动了领域内和开源适应性方面的进步。

Tang et al. (2025 (https://arxiv.org/html/2607.01388#bib.bib14)) 引入了可执行的 Python 解决方案用于答案验证,但未提供系统的步骤级对齐。Zhao et al. (2024a (https://arxiv.org/html/2607.01388#bib.bib15)) 聚焦于金融中的知识密集型数学推理,而 Zhao et al. (2024b (https://arxiv.org/html/2607.01388#bib.bib16)) 评估了长篇和专业文档上的数学推理。

### 2.2 可验证思维链评估

Xie et al. (2026b (https://arxiv.org/html/2607.01388#bib.bib13)) 提出了 FinChain,这是首个面向金融领域可验证思维链推理的符号化基准。FinChain 涵盖 12 个领域的 58 个主题,并引入了基于 DTW 的 ChainEval 指标,联合评估步骤级一致性和最终答案正确性。每个示例由带可执行 Python 代码的参数化符号模板生成,实现机器可验证的推理和无污染数据生成。FinChain 成功建立了可控符号推理评估的范式。然而,其范围局限于英语和以美国为中心的金融惯例,为需要本地化术语和区域合规性的非英语金融生态系统留下了自然的空白。

与此同时,Stanishevskii et al. (2026 (https://arxiv.org/html/2607.01388#bib.bib17)) 引入了 FINESSE-Bench,这是一套包含 3993 个问题的层级化八项专用基准套件,用于评估 LLM 的金融能力。FINESSE-Bench 结合了受专业认证(类似 CFA 一级至三级、CMT 二级、CFTe 一级)启发的考试导向数据集、应用交易任务以及一个俄语奥林匹克基准(VLigaBench-ru)。该工作通过拓展领域覆盖范围并以选择题(MCQ)格式提供强大的区分能力,做出了宝贵贡献。值得注意的是,它包含一个专门的俄语模块(VLigaBench-ru),由 324 道奥林匹克风格问题组成。然而,MCQ 格式旨在测试识别和理论知识,而非生成结构化的多步骤算术链。此外,依赖 LLM 作为裁判进行评分,虽然对于大规模 MCQ 评估实用,但无法提供对审计计算推理至关重要的中间数值的精确、确定性验证。

为补充这些现有资源,我们的工作建立在数学推理中引入的符号模板范式之上(Mirzadeh et al., 2025 (https://arxiv.org/html/2607.01388#bib.bib27))。我们将该范式适配到金融领域,并关键性地扩展至俄语。与 MCQ 格式不同,RusFinChain 要求开放式生成逐步解决方案,并提供完全确定性、可 Python 执行的金标准轨迹。这提供了一个专门设计用于诊断多步骤算术计算错误的受控测试平台,弥补了像 FINESSE-Bench 这类考试导向基准提供的理论广度。

### 2.3 推理评估指标

除了表面级指标如 ROUGE (Lin, 2004 (https://arxiv.org/html/2607.01388#bib.bib22)) 和 BERTScore (Zhang et al., 2020 (https://arxiv.org/html/2607.01388#bib.bib23)),近期工作提出了专门用于评估推理链的指标。Golovneva et al. (2023 (https://arxiv.org/html/2607.01388#bib.bib20)) 引入了 ROSCOE,一套用于评分逐步推理的指标,评估语义连贯性、逻辑一致性和事实准确性。Lyu et al. (2023 (https://arxiv.org/html/2607.01388#bib.bib21)) 提出了评估思维链推理忠实性的方法。Xie et al. (2023b (https://arxiv.org/html/2607.01388#bib.bib24)) 引入了 DeltaScore,一种使用扰动的细粒度评估方法。这些工作强调了评估推理过程本身(而非仅最终答案)的重要性。

Zheng et al. (2023 (https://arxiv.org/html/2607.01388#bib.bib25)) 表明强大的语言模型可以作为裁判,实现开放式响应的可扩展评估。Li et al. (2024 (https://arxiv.org/html/2607.01388#bib.bib26)) 证明了基于 LLM 的评估有助于构建更具区分性的基准。虽然我们承认 LLM 裁判在评估流畅性和可信度方面的实用性,但 RusFinChain 满足了一个不同的需求:一个以数学为基础、确定性强的评估框架,与精确数值正确性而非语言可信度高度相关。

本工作中的金融领域分类学参考了标准金融文献 (Bodie et al., 2025 (https://arxiv.org/html/2607.01388#bib.bib37)) 以及使用计算工具解决金融问题的教育资源 (Arabov et al., 2019 (https://arxiv.org/html/2607.01388#bib.bib36))。

## 3 RusFinChain:数据集构建

### 3.1 分类学与领域覆盖

我们首先根据成熟的金融文献 (Bodie et al., 2025 (https://arxiv.org/html/2607.01388#bib.bib37)) 和团队内金融专家的意见,确定并定义金融领域。这一过程产生了 17 个不同的金融领域。在每个领域内,我们借助 LLM 辅助提出候选金融主题,随后由领域专家进行审核筛选,最终得到 172 个主题,每个领域平均 10.1 个主题。生成的分类学涵盖传统领域如公司金融、财务报告、证券和税收,也包括新兴领域如加密金融、ESG 与可持续金融以及风险管理。这种层级化结构能够对跨不同金融子领域的符号推理进行细粒度评估。

表 1 (https://arxiv.org/html/2607.01388#S3.T1) 列出了全部 17 个领域及其相应的主题数量和每个领域的任务数量。该分布反映了我们在经典和当代金融学科之间平衡覆盖范围的努力,同时确保每个领域内有足够的主题深度以进行有意义的评估。

表 1:RusFinChain 中的领域、主题覆盖和任务分布。遵循数学推理中引入的符号模板范式 (Mirzadeh et al., 2025 (https://arxiv.org/html/2607.01388#bib.bib27)),我们通过参数化符号模板实例化每个主题,这些模板定义了问题结构和可执行的过程。

相似文章

CoRA: 面向可靠思维链推理的置信度-理由对齐

arXiv cs.CL

本文介绍了CoRA,一种基于GRPO的强化学习框架,旨在将LLM的置信度与生成的理由对齐,以提高思维链推理的可靠性,在多个基准测试中将不对齐误差降低了高达26.51%。

忠实性作为信息流:评估与训练忠实的思维链推理

arXiv cs.LG

本文提出一个框架,通过控制信息流来评估和提升思维链推理的忠实性,使用基于熵、KL散度和梯度的诊断方法,并引入训练干预措施(注意力掩码、梯度掩码、对抗扰动),使推理更加透明,减少对捷径的依赖。

面向基础模型综合评估的细粒度基准生成

arXiv cs.LG

一种新的自动化基准生成框架能够实现基础模型的细粒度、全面评估,具有更低的错误率和更丰富的元数据,在机器学习、公司金融和个人金融基准上得到了验证。