SAHM：首个阿拉伯语金融与符合伊斯兰教法推理基准

arXiv cs.CL 2026/04/22 04:00 论文

摘要

研究人员发布 SAHM，首个包含 14,380 条专家验证样本的阿拉伯语金融基准，涵盖符合伊斯兰教法的推理，20 个受评 LLM 表现差距显著。

arXiv:2604.19098v1 公告类型：new 摘要：英文金融 NLP 已通过情感、文档理解和金融问答等基准实现快速进展，而阿拉伯语金融 NLP 相对探索不足，尽管市场对可信金融及伊斯兰金融助手需求强劲。我们推出 SAHM，一个面向阿拉伯语金融 NLP 与符合伊斯兰教法推理的文档驱动基准及指令微调数据集。SAHM 包含 14,380 条专家验证样本，覆盖七项任务：AAOIFI 标准问答、基于教令的问答/选择题、会计与商业考试、金融情感分析、抽取式摘要及事件因果推理，数据源自权威监管、教法与企业资料。我们使用任务特定指标及基于评分标准的开放输出评估，对 19 个强大的开源与专有 LLM 进行测试，发现阿拉伯语流利度并不能可靠转化为有证据支撑的金融推理：模型在识别型任务上远强于生成与因果推理，事件因果推理差距最大。我们公开基准、评估框架及一个指令微调模型，以支持未来可信阿拉伯语金融 NLP 研究。

查看原文

查看缓存全文

缓存时间: 2026/04/22 08:30

# 阿拉伯金融与伊斯兰教法合规推理评测基准  
来源：https://arxiv.org/html/2604.19098  
Rania Elbadry¹, Sarfraz Ahmad¹, Ahmed Heakl¹, Dani Bouch¹, Momina Ahsan¹,  
Muhra AlMahri¹, Marwa Elsaid Khalil¹, Mohamed Anwar¹, Yuxia Wang²,  
Salem Lahlou¹, Sophia Ananiadou³, Veselin Stoyanov¹, Jimin Huang⁴, Xueqing Peng⁴,  
Preslav Nakov¹, Zhuohan Xie¹  
¹MBZUAI ²INSAIT ³The University of Manchester ⁴The Fin AI  
{rania.elbadry, preslav.nakov, zhuohan.xie}@mbzuai.ac.ae  
SAHM Benchmark: https://huggingface.co/SahmBenchmark  
代码: https://github.com/rania-hossam/SAHM  

###### 摘要  
英文金融 NLP 已通过收益分析、市场情绪、表格推理、金融问答等基准快速进步，然而阿拉伯语金融 NLP 几乎空白——尽管该语种拥有 4.22 亿使用者、海湾主权财富高达 4.9 万亿美元，且伊斯兰金融业规模达 4–5 万亿美元，需对 sukuk、murabaha、takaful 等工具进行专门的伊斯兰教法合规审查。我们推出 Sahm，首个阿拉伯语金融基准，涵盖七类任务：AAOIFI 标准问答、基于 fatwa 的问答/选择、会计与商业考试、金融情感分析、抽取式摘要、事件因果推理，共 14,380 条经专家核验的真实监管、教法与企业实例。评测 20 个 LLM 发现：阿拉伯语流利≠金融推理强；识别任务高达 91% 的模型在生成任务上骤降，事件因果推理差距最大（1.89–9.84/10）。我们公开基准与数据集，以支撑可信的阿拉伯语金融助手。

## 1 引言  
海湾合作委员会 (GCC) 产生大量阿拉伯语金融文本，包括央行报告、监管披露、公司公告及提供教法裁决的 fatwa。然而，针对阿拉伯语金融内容的 LLM 系统评测仍缺位。英文金融 NLP 已通过专用基准（Maia et al., 2018a; Zhu et al., 2021; Chen et al., 2021, 2022; Zhao et al., 2024; Xie et al., 2025）迅速演进，多语言扩展亦出现（Nie et al., 2025; Zhang et al., 2024; Peng et al., 2025a,b）。阿拉伯语基准仅 ArBanking77（Jarrar et al., 2023）覆盖银行意图，且阿拉伯-centric LLM（Jais、Falcon-Arabic、AIN、Fanar 等）未在金融域评测。伊斯兰金融差距更甚：与常规金融不同，其需遵循 AAOIFI 发布的教法标准。虽有 Fatwaset、Hajj FQA 等资源，但聚焦通用教法问答，而非金融推理。因此，LLM 尚未接受融合法律与金融分析的测试。  
我们提出 Sahm，首个统一现代金融与伊斯兰教法的阿拉伯语金融 NLP 基准，覆盖七类经专家核验的任务，扎根于 AAOIFI 标准、七国 fatwa 档案与公司披露（图 1）。评测 20 个 LLM 发现：阿拉伯语流利≠金融推理；基础阿拉伯模型位列倒数 25%。然而，在 Sahm 上微调可大幅缩小差距：领域自适应 7–8B 模型在会计任务提升 +26 分、商业任务 +25 分，超越 GPT-5 并持平 72B 开源基线。  

贡献：  
- 首个阿拉伯语金融基准（14,380 例；7 任务），联合评测伊斯兰教法合规推理（fatwa 问答、伊斯兰金融标准）与核心金融能力（会计选择、情感、事件因果问答），填补阿拉伯语金融 NLP 资源空白。  
- 20 个 LLM 综合评测显示：阿拉伯语流利≠金融推理；选择任务高达 91% 的模型在开放生成上骤降，事件因果问答差距最大（1.89–9.84/10）。  
- 定向自适应可媲美规模红利：微调得到两个互补 7–8B 模型——Sahm-ALLAM-7B（峰值精度，商业选择超 GPT-5 达 +21.3 分，93.99% vs. 72.68%）与 Sahm-Jais-8B（各任务均正向迁移），平均持平 72B 开源基线，参数效率≈10×，确立领域自适应为构建可信阿拉伯语金融助手的实用低成本路径。

## 2 相关工作  
##### 金融 NLP 基准  
英文金融 NLP 已通过逐步升级的基准成熟：早期聚焦分类抽取，近期面向表格数值推理（FinQA、TAT-QA）、多轮对话（ConvFinQA）、思维链验证（FinChain）。综合套件 FinBen、PIXIU 已覆盖 24 任务。多语言扩展出现中文 CFinBench、希腊语 Plutus，表明文化接地评测能暴露英文单语测试看不见的失效模式。然而，管理 4.9 万亿美元主权财富的 4.22 亿阿拉伯语人群仍无对应金融基准。  

##### 阿拉伯 NLP 与评测空白  
阿拉伯语资源增长显著，但金融覆盖浅：ArBanking77 仅银行意图；Fatwaset、Hajj-FQA 聚焦宗教问答。这些数据集不支持监管合规、数值分析或教法对齐决策所需的推理。阿拉伯金融文本挑战独特：混合数字系统（东方 ٠١٢٣ 与西方 0123）、与英文缩写混用（IFRS、AAOIFI）、伊斯兰教法术语（riba、gharar、sukuk）。与此同时，Jais、Falcon-Arabic、AIN、Fanar 等阿拉伯-centric LLM 仅在通用基准评测，忽视上述复杂性。

## 3 Sahm 任务与数据集  
| 任务 | 数据集 | N | 输入词数 | 输入字符 | 答案词数 | 答案字符 |  
|---|---|---|---|---|---|---|  
| 会计考试选择 | 1,671 | 111.5±91.1 | 674.3±550.5 | 1.0±0.0 | 1.0±0.0 |  
| 商业考试选择 | 1,834 | 46.3±12.2 | 298.3±71.6 | 1.0±0.0 | 1.0±0.0 |  
| 伊斯兰金融 fatwa 选择 | 2,000 | 93.1±14.7 | 536.7±82.6 | 1.0±0.0 | 1.0±0.0 |  
| 财报情感分析选择 | 802 | 92.3±139.3 | 1,780.7±841.9 | 1.0±0.0 | 1.0±0.0 |  
| 事件因果推理问答 | 804 | 413.6±299.9 | 2,503.7±1,752.1 | 350.6±101.8 | 2,170.4±635.8 |  
| 伊斯兰 fatwa 问答 | 2,000 | 64.1±36.2 | 377.3±200.6 | 89.9±58.4 | 492.5±324.0 |  
| 伊斯兰教法标准问答 | 811 | 140.1±5.2 | 287.0±39.5 | 33.2±22.0 | 192.1±129.8 |  
| 报告抽取式摘要 | 803 | 55.4±165.4 | 2,144.3±972.3 | 157.4±66.5 | 929.1±391.7 |  

表 1：Sahm 数据集统计（测试集均值±标准差）。选择任务答案为单字母，故词/字符数恒为 1.0。

### 3.1 伊斯兰金融教法标准问答  
海湾及 MENA 地区金融须遵循伊斯兰教法，由 AAOIFI 等框架规定 sukuk 发行、Ijara 租赁回购等结构。现有基准默认西方工具，模型未受教法合规、合同许可等区域性关键推理测试。  
我们基于官方 1,264 页 AAOIFI 汇编（52 标准章）构建首个伊斯兰教法标准问答数据集。流程：Gemini-2.5-Pro OCR → 两位伊斯兰金融专家人工核验（25% 样本精确率 98.7%，κ=0.962）→ 主题聚类 → Gemini-2.5-Pro 草拟阿语问答 → 专家精校，确保法律忠实。图 1、图 2 给出示例与完整流程。

### 3.2 伊斯兰金融 fatwa 问答  
我们爬取 13 个官方 fatwa 网站（7 国），初始 20k 条，去重后按 11 金融主题（天课、利息、成本加成融资等）整理，用 Gemini-2.5-pro 将冗长正式文本转为简洁问答，保留教法含义，去除开场祷词与修辞。

SAHM：首个阿拉伯语金融与符合伊斯兰教法推理基准

相似文章

基于LLM的阿拉伯语金融情绪分析：来自沙特市场的证据

QIAS 2026: 伊斯兰继承推理共享任务概述

Soohak：由数学家精心策划的基准测试，用于评估大语言模型的研究级数学能力

哪些模型在继承推理中表现更好？

mmPISA-bench：LLMs 在43种语言中的推理能力是否同样出色？

提交意见反馈