SAHM:首个阿拉伯语金融与符合伊斯兰教法推理基准

arXiv cs.CL 论文

摘要

研究人员发布 SAHM,首个包含 14,380 条专家验证样本的阿拉伯语金融基准,涵盖符合伊斯兰教法的推理,20 个受评 LLM 表现差距显著。

arXiv:2604.19098v1 公告类型:new 摘要:英文金融 NLP 已通过情感、文档理解和金融问答等基准实现快速进展,而阿拉伯语金融 NLP 相对探索不足,尽管市场对可信金融及伊斯兰金融助手需求强劲。我们推出 SAHM,一个面向阿拉伯语金融 NLP 与符合伊斯兰教法推理的文档驱动基准及指令微调数据集。SAHM 包含 14,380 条专家验证样本,覆盖七项任务:AAOIFI 标准问答、基于教令的问答/选择题、会计与商业考试、金融情感分析、抽取式摘要及事件因果推理,数据源自权威监管、教法与企业资料。我们使用任务特定指标及基于评分标准的开放输出评估,对 19 个强大的开源与专有 LLM 进行测试,发现阿拉伯语流利度并不能可靠转化为有证据支撑的金融推理:模型在识别型任务上远强于生成与因果推理,事件因果推理差距最大。我们公开基准、评估框架及一个指令微调模型,以支持未来可信阿拉伯语金融 NLP 研究。
查看原文
查看缓存全文

缓存时间: 2026/04/22 08:30

# 阿拉伯金融与伊斯兰教法合规推理评测基准  
来源:https://arxiv.org/html/2604.19098  
Rania Elbadry¹, Sarfraz Ahmad¹, Ahmed Heakl¹, Dani Bouch¹, Momina Ahsan¹,  
Muhra AlMahri¹, Marwa Elsaid Khalil¹, Mohamed Anwar¹, Yuxia Wang²,  
Salem Lahlou¹, Sophia Ananiadou³, Veselin Stoyanov¹, Jimin Huang⁴, Xueqing Peng⁴,  
Preslav Nakov¹, Zhuohan Xie¹  
¹MBZUAI ²INSAIT ³The University of Manchester ⁴The Fin AI  
{rania.elbadry, preslav.nakov, zhuohan.xie}@mbzuai.ac.ae  
SAHM Benchmark: https://huggingface.co/SahmBenchmark  
代码: https://github.com/rania-hossam/SAHM  

###### 摘要  
英文金融 NLP 已通过收益分析、市场情绪、表格推理、金融问答等基准快速进步,然而阿拉伯语金融 NLP 几乎空白——尽管该语种拥有 4.22 亿使用者、海湾主权财富高达 4.9 万亿美元,且伊斯兰金融业规模达 4–5 万亿美元,需对 sukuk、murabaha、takaful 等工具进行专门的伊斯兰教法合规审查。我们推出 Sahm,首个阿拉伯语金融基准,涵盖七类任务:AAOIFI 标准问答、基于 fatwa 的问答/选择、会计与商业考试、金融情感分析、抽取式摘要、事件因果推理,共 14,380 条经专家核验的真实监管、教法与企业实例。评测 20 个 LLM 发现:阿拉伯语流利≠金融推理强;识别任务高达 91% 的模型在生成任务上骤降,事件因果推理差距最大(1.89–9.84/10)。我们公开基准与数据集,以支撑可信的阿拉伯语金融助手。

## 1 引言  
海湾合作委员会 (GCC) 产生大量阿拉伯语金融文本,包括央行报告、监管披露、公司公告及提供教法裁决的 fatwa。然而,针对阿拉伯语金融内容的 LLM 系统评测仍缺位。英文金融 NLP 已通过专用基准(Maia et al., 2018a; Zhu et al., 2021; Chen et al., 2021, 2022; Zhao et al., 2024; Xie et al., 2025)迅速演进,多语言扩展亦出现(Nie et al., 2025; Zhang et al., 2024; Peng et al., 2025a,b)。阿拉伯语基准仅 ArBanking77(Jarrar et al., 2023)覆盖银行意图,且阿拉伯-centric LLM(Jais、Falcon-Arabic、AIN、Fanar 等)未在金融域评测。伊斯兰金融差距更甚:与常规金融不同,其需遵循 AAOIFI 发布的教法标准。虽有 Fatwaset、Hajj FQA 等资源,但聚焦通用教法问答,而非金融推理。因此,LLM 尚未接受融合法律与金融分析的测试。  
我们提出 Sahm,首个统一现代金融与伊斯兰教法的阿拉伯语金融 NLP 基准,覆盖七类经专家核验的任务,扎根于 AAOIFI 标准、七国 fatwa 档案与公司披露(图 1)。评测 20 个 LLM 发现:阿拉伯语流利≠金融推理;基础阿拉伯模型位列倒数 25%。然而,在 Sahm 上微调可大幅缩小差距:领域自适应 7–8B 模型在会计任务提升 +26 分、商业任务 +25 分,超越 GPT-5 并持平 72B 开源基线。  

贡献:  
- 首个阿拉伯语金融基准(14,380 例;7 任务),联合评测伊斯兰教法合规推理(fatwa 问答、伊斯兰金融标准)与核心金融能力(会计选择、情感、事件因果问答),填补阿拉伯语金融 NLP 资源空白。  
- 20 个 LLM 综合评测显示:阿拉伯语流利≠金融推理;选择任务高达 91% 的模型在开放生成上骤降,事件因果问答差距最大(1.89–9.84/10)。  
- 定向自适应可媲美规模红利:微调得到两个互补 7–8B 模型——Sahm-ALLAM-7B(峰值精度,商业选择超 GPT-5 达 +21.3 分,93.99% vs. 72.68%)与 Sahm-Jais-8B(各任务均正向迁移),平均持平 72B 开源基线,参数效率≈10×,确立领域自适应为构建可信阿拉伯语金融助手的实用低成本路径。

## 2 相关工作  
##### 金融 NLP 基准  
英文金融 NLP 已通过逐步升级的基准成熟:早期聚焦分类抽取,近期面向表格数值推理(FinQA、TAT-QA)、多轮对话(ConvFinQA)、思维链验证(FinChain)。综合套件 FinBen、PIXIU 已覆盖 24 任务。多语言扩展出现中文 CFinBench、希腊语 Plutus,表明文化接地评测能暴露英文单语测试看不见的失效模式。然而,管理 4.9 万亿美元主权财富的 4.22 亿阿拉伯语人群仍无对应金融基准。  

##### 阿拉伯 NLP 与评测空白  
阿拉伯语资源增长显著,但金融覆盖浅:ArBanking77 仅银行意图;Fatwaset、Hajj-FQA 聚焦宗教问答。这些数据集不支持监管合规、数值分析或教法对齐决策所需的推理。阿拉伯金融文本挑战独特:混合数字系统(东方 ٠١٢٣ 与西方 0123)、与英文缩写混用(IFRS、AAOIFI)、伊斯兰教法术语(riba、gharar、sukuk)。与此同时,Jais、Falcon-Arabic、AIN、Fanar 等阿拉伯-centric LLM 仅在通用基准评测,忽视上述复杂性。

## 3 Sahm 任务与数据集  
| 任务 | 数据集 | N | 输入词数 | 输入字符 | 答案词数 | 答案字符 |  
|---|---|---|---|---|---|---|  
| 会计考试选择 | 1,671 | 111.5±91.1 | 674.3±550.5 | 1.0±0.0 | 1.0±0.0 |  
| 商业考试选择 | 1,834 | 46.3±12.2 | 298.3±71.6 | 1.0±0.0 | 1.0±0.0 |  
| 伊斯兰金融 fatwa 选择 | 2,000 | 93.1±14.7 | 536.7±82.6 | 1.0±0.0 | 1.0±0.0 |  
| 财报情感分析选择 | 802 | 92.3±139.3 | 1,780.7±841.9 | 1.0±0.0 | 1.0±0.0 |  
| 事件因果推理问答 | 804 | 413.6±299.9 | 2,503.7±1,752.1 | 350.6±101.8 | 2,170.4±635.8 |  
| 伊斯兰 fatwa 问答 | 2,000 | 64.1±36.2 | 377.3±200.6 | 89.9±58.4 | 492.5±324.0 |  
| 伊斯兰教法标准问答 | 811 | 140.1±5.2 | 287.0±39.5 | 33.2±22.0 | 192.1±129.8 |  
| 报告抽取式摘要 | 803 | 55.4±165.4 | 2,144.3±972.3 | 157.4±66.5 | 929.1±391.7 |  

表 1:Sahm 数据集统计(测试集均值±标准差)。选择任务答案为单字母,故词/字符数恒为 1.0。

### 3.1 伊斯兰金融教法标准问答  
海湾及 MENA 地区金融须遵循伊斯兰教法,由 AAOIFI 等框架规定 sukuk 发行、Ijara 租赁回购等结构。现有基准默认西方工具,模型未受教法合规、合同许可等区域性关键推理测试。  
我们基于官方 1,264 页 AAOIFI 汇编(52 标准章)构建首个伊斯兰教法标准问答数据集。流程:Gemini-2.5-Pro OCR → 两位伊斯兰金融专家人工核验(25% 样本精确率 98.7%,κ=0.962)→ 主题聚类 → Gemini-2.5-Pro 草拟阿语问答 → 专家精校,确保法律忠实。图 1、图 2 给出示例与完整流程。

### 3.2 伊斯兰金融 fatwa 问答  
我们爬取 13 个官方 fatwa 网站(7 国),初始 20k 条,去重后按 11 金融主题(天课、利息、成本加成融资等)整理,用 Gemini-2.5-pro 将冗长正式文本转为简洁问答,保留教法含义,去除开场祷词与修辞。

相似文章

哪些模型在继承推理中表现更好?

arXiv cs.CL

本文介绍了PSL团队在2026年阿拉伯伊斯兰继承推理共享任务(QIAS 2026 Shared Task)中的参与情况,对比了商业和开源大语言模型。结果显示,商业模型(如Gemini 2.5 Flash)在处理具有多步依赖的结构化法律推理方面显著优于开源模型。