QU-NLP 亮相 QIAS 2026:面向阿拉伯语伊斯兰继承推理的多阶段 QLoRA 微调
摘要
本文介绍了卡塔尔大学针对阿拉伯语伊斯兰继承推理提出的基于 Qwen3-4B 的多阶段 QLoRA 微调方法。该方法首先对伊斯兰教令(fatwa)记录进行领域适配,随后在 12,000 个结构化继承案例上进行任务特定训练,最终达到 90% 的 MIR-E 得分。其性能媲美 Gemini-2.5-flash 等商业系统,且仅需极少的计算资源。
arXiv:2604.16396v1 Announce Type: new
摘要:伊斯兰继承法(ilm al-mawarith)在评估大型语言模型的复杂推理能力方面极具挑战性,要求模型具备多步法律分析、基于规则的阻断判定以及精确的分数运算能力。本文展示 QU-NLP 团队提交的 QIAS 2026 阿拉伯语伊斯兰继承推理共享任务参赛方案。我们提出了一种在 Qwen3-4B 上的多阶段量化低秩自适应(QLoRA)微调策略:(1)基于 3,166 份伊斯兰教令记录进行领域适配,以习得继承法术语与教法推理模式;(2)随后在 12,000 个结构化继承案例上进行任务专属训练,以优化 JSON 格式输出。该模型采用 4 位 NF4 量化配合 rank-128 的 LoRA 适配器,在测试集上取得 90% 的 MIR-E(Mawarith 继承推理评估)得分,在极低算力开销下展现出极具竞争力的性能。我们的实验表明,通过领域预适配结合结构化输出训练,轻量级语言模型也能高效执行复杂的法律推理任务,其表现足以媲美 Gemini-2.5-flash 等商业大模型。
查看缓存全文
缓存时间: 2026/04/21 07:02
# QU-NLP at QIAS 2026: Multi-Stage QLoRA Fine-Tuning for Arabic Islamic Inheritance Reasoning ###### Abstract 伊斯兰继承法('ilm al-mawārīth)为评估大型语言模型的结构性推理能力提出了严峻挑战,要求进行多步法律分析、基于规则的阻断决策以及精确的分数计算。本文介绍了 QU-NLP 参加 QIAS 2026 阿拉伯伊斯兰继承推理共享任务的方案。我们的方法在 Qwen3-4B 上采用多阶段量化低秩自适应(QLoRA)微调策略:(1)利用 3,166 份伊斯兰教法判例进行领域适应,以掌握继承术语和教法学推理模式;(2)随后在 12,000 个结构化继承案例上进行任务特定训练,以优化 JSON 格式输出的生成。结合 4-bit NF4 量化与 rank-128 的 LoRA 适配器,我们的模型在测试集上取得了 90% 的 MIR-E(Mawarith Inheritance Reasoning Evaluation,伊斯兰继承推理评估)得分,展现出极具竞争力的性能,同时仅需极少的计算资源。结果表明,领域特定的预适应结合结构化输出训练,能够使小型语言模型有效执行复杂的法律推理任务,其表现可与 Gemini-2.5-flash 等商业系统相媲美。 \\NAT@set@cites # QU-NLP at QIAS 2026: Multi-Stage QLoRA Fine-Tuning for Arabic Islamic Inheritance Reasoning Mohammad AL-Smadi Qatar University Doha, Qatar [email protected] Abstract content ## 1. Introduction 大型语言模型(LLMs)已在多样化的自然语言处理任务中展现出卓越的能力 OpenAI et al. (2024) (https://arxiv.org/html/2604.16396#bib.bib5)。然而,它们在严格法律约束下进行结构化、基于规则的推理能力仍未得到充分评估。伊斯兰继承法('ilm al-mawārīth)为评估多步法律推理能力提供了一个尤为苛刻的测试场 Bouchekif et al. (2026) (https://arxiv.org/html/2604.16396#bib.bib1)。解决一个伊斯兰继承案例需要严谨的程序链:(1)从家庭关系的文本描述中识别合格继承人;(2)应用阻断规则(ḥajb)以确定哪些亲属因更近亲等的存在而被排除;(3)向合格继承人分配《古兰经》规定的固定份额;(4)检测并应用调整机制,如 ’awl(当总份额超过 1 时的比例缩减)或 radd(剩余部分的重分配);(5)计算最终归一化分配。任何中间阶段的错误都会确定性传播并导致后续计算失效,这使得该领域非常适合在教法学约束下评估结构化推理能力。 QIAS 2026 共享任务标志着评估模型处理伊斯兰继承推理能力的重要演进。相较于 2025 年通过多项选择题评估模型的方法 Bouchekif et al. (2025a) (https://arxiv.org/html/2604.16396#bib.bib2),2026 年的任务引入了 MAWARITH,这是一个包含 12,500 个阿拉伯语继承案例的大规模数据集,附有详细的逐步推理注释 Bouchekif et al. (2026) (https://arxiv.org/html/2604.16396#bib.bib1)。QIAS 2026 要求生成完整结构化推理轨迹(JSON 格式),暴露跨越五阶段管道的全部中间法律决策:继承人识别、阻断规则应用、份额计算、调整检测以及最终分配。这种方法论的转变解决了多项选择评估的关键局限性:在这些评估中,模型可能仅靠记忆而非真正理解即可成功,且二元评分无法提供关于具体失败模式的诊断性洞察。结构化输出要求促成了多组件 MIR-E 评估指标的应用,该指标可为正确的中间步骤授予部分分数——例如,对于法律推理完美但存在算术错误的案例,最高可给予 70% 的分数。此评估框架支持我们的细粒度错误分析,能够识别出四类不同的模型失败模式及其针对性的改进策略,而这在答案选择格式下是不可能实现的。 我们展示了 QU-NLP 应对此挑战的方案,采用在 Qwen3-4B 上的多阶段 QLoRA 微调策略 Qwen Team (2025) (https://arxiv.org/html/2604.16396#bib.bib29)。我们的主要贡献包括: - 一种两阶段训练方法,将伊斯兰法律文本的领域适应与结构化继承解决方案的任务特定微调相结合。 - 证明了配备 LoRA 适配器的 4-bit 量化模型能够在复杂的多步法律推理中实现 90% 的 MIR-E 得分,同时仅需极少的计算资源,使其跻身顶级表现系统之列,并显著优于基线研究中评估的更大规模开源模型 Bouchekif et al. (2025b) (https://arxiv.org/html/2604.16396#bib.bib3)。 - 全面的错误分析,识别出四种不同的失败模式及其根本原因,为模型改进提供了可操作的见解。 ## 2. Related Work ### 1.2. LLMs for Islamic Knowledge Tasks 最近的研究探讨了 LLM 在伊斯兰知识任务中的应用,包括《古兰经》问答 Bhatia et al. (2026) (https://arxiv.org/html/2604.16396#bib.bib10);Malhas et al. (2022) (https://arxiv.org/html/2604.16396#bib.bib11) 以及伊斯兰内容幻觉检测 Mubarak et al. (2025) (https://arxiv.org/html/2604.16396#bib.bib12)。这些研究表明,虽然 LLM 在处理依赖文本匹配的检索类任务中表现尚可,但在需要结构化推理或深层领域知识的任务中存在显著局限。Bouchekif 等人 Bouchekif et al. (2025b) (https://arxiv.org/html/2604.16396#bib.bib3) 评估了 LLM 在伊斯兰法律推理中的表现,指出其在继承案例解析中存在系统性失败,引发了人们对模型在宗教和法律应用中可靠性的担忧。 研究者们探索了检索增强生成(RAG)方法来提升答案的准确性 Al-Smadi (2025) (https://arxiv.org/html/2604.16396#bib.bib7); Alowaidi (2025) (https://arxiv.org/html/2604.16396#bib.bib14)。然而,RAG 仍不足以处理需要多步推理的问题,这推动了面向推理模型的开发。在伊斯兰继承领域内,既往工作主要集中在多项选择题评估上。QIAS 2025 Bouchekif et al. (2025a) (https://arxiv.org/html/2604.16396#bib.bib2) 引入了通过多选题评估的伊斯兰继承推理共享任务,模型仅需选出正确答案而无法暴露推理轨迹。Elrefai 等人 Elrefai et al. (2025) (https://arxiv.org/html/2604.16396#bib.bib9) 使用微调后的阿拉伯语 LLM 参加了 QIAS 2025,但 MCQ 格式使得无法评估模型是否真正进行了正确推理,还是仅仅在进行模式匹配。Al-Smadi Al-Smadi (2025) (https://arxiv.org/html/2604.16396#bib.bib7) 在 QIAS 2025 探索了结合检索增强生成的两阶段微调方法,研究了伊斯兰继承推理中的混合检索与生成策略。MirathQA Almasoud et al. (2026) (https://arxiv.org/html/2604.16396#bib.bib8) 提供了一个包含罕百里学派(Hanbali)继承案例的 MCQ 格式数据集。MAWARITH 数据集 Bouchekif et al. (2026) (https://arxiv.org/html/2604.16396#bib.bib1) 通过要求端到端的推理生成及中间论证,克服了这一局限,从而支持对继承推理全流水线的细粒度错误分析。 ### 2.2. Legal Reasoning with LLMs 超越伊斯兰领域,法律推理基准应运而生,用于评估 LLM 的结构化论证和基于规则的推理能力。LegalBench Guha et al. (2023) (https://arxiv.org/html/2604.16396#bib.bib15)、LexGLUE Chalkidis et al. (2022) (https://arxiv.org/html/2604.16396#bib.bib16) 和 LEXTREME Niklaus et al. (2023) (https://arxiv.org/html/2604.16396#bib.bib17) 在普通法法律任务上对模型进行评估。BRIEFME Woo et al. (2025) (https://arxiv.org/html/2604.16396#bib.bib18) 评估了在法律简报辅助背景下的法律论点摘要。近期明确为多步推理设计的模型包括 GPT-5 Singh et al. (2025) (https://arxiv.org/html/2604.16396#bib.bib19)、Gemini Comanici et al. (2025) (https://arxiv.org/html/2604.16396#bib.bib20)、DeepSeek-R1 Guo et al. (2025) (https://arxiv.org/html/2604.16396#bib.bib21),以及开源替代方案如 Qwen3 Qwen Team (2025) (https://arxiv.org/html/2604.16396#bib.bib29) 和 Fanar Abbas et al. (2025) (https://arxiv.org/html/2604.16396#bib.bib22)。这些模型通过指令微调和强化学习促进一致的多步推理。参数高效微调方法,尤其是 QLoRA Dettmers et al. (2023) (https://arxiv.org/html/2604.16396#bib.bib23),使得在有限资源下适配大型模型成为可能。QLoRA 将 4-bit NF4 量化与低秩自适应(LoRA)Hu et al. (2021) (https://arxiv.org/html/2604.16396#bib.bib24) 相结合,在大幅降低内存需求的同时实现了具有竞争力的微调性能。该方法已被应用于专门阿拉伯语 NLP 任务的领域适应 Al-Smadi (2025) (https://arxiv.org/html/2604.16396#bib.bib7)。 ## 3. Task and Dataset ### 1.3. Task Definition QIAS 2026 共享任务要求模型通过生成暴露所有中间推理步骤的结构化 JSON 输出来解决阿拉伯伊斯兰继承案例。给定死者及幸存亲属的自然语言描述,模型必须在无法访问黄金标准(gold)中间步骤的情况下,执行完整的五阶段推理流水线。 #### 1.3.1. JSON Output Structure 正如 MAWARITH 数据集所阐述的 Bouchekif et al. (2026) (https://arxiv.org/html/2604.16396#bib.bib1),所需的 JSON 输出包含五个强制组件,代表不同的推理阶段: 1. **Heirs ('al-waratha)**:列出所有合格的继承亲属及其数量。每个继承人条目指定继承人类别(例如,“儿子”、“女儿”、“母亲”)以及该类别人数的计数。此阶段需要根据亲属关系应用《古兰经》资格规则。 2. **Blocked ('al-maḥjūbūn)**:列出场景中提及但因阻断规则(ḥajb)而未能继承的亲属。伊斯兰继承法规定,较近的亲属会在特定模式下阻断较远的亲属——例如,儿子会阻断孙子,父亲会阻断叔叔。正确识别被阻断的亲属证明了对这些层级规则的理解。 3. **Shares ('al-anṣiba)**:分配给每位合格继承人的初始固定份额,尚未进行全局调整。《古兰经》规定了某些继承人类别的固定份额(例如,若无子女,妻子得 1/4;若有子女,得 1/8;独生女得 1/2;多女得 2/3)。残余继承人('aṣaba,如儿子和兄弟)获得固定份额分配后的剩余部分,标记为“遗产余额”而非数值分数。 4. **'Awl 或 Radd**:当规定份额总和未精确等于全额遗产时应用的全局调整机制类型: - **Radd(重分配)**:当总规定份额小于全额遗产且不存在残余继承人时适用。分配完所有固定份额后,剩余的未分配部分将根据原始份额按比例重新分配给合格的固定份额继承人。例如,若母亲得 1/6,女儿得 1/2,总计为 1/6 + 1/2 = 2/3,余 1/3 未分配。这部分剩余量通过 radd 重新分配,使每位继承人的分配额按其原始规定份额成比例增加。 - **'Awl(比例缩减)**:当总规定份额超过全额遗产时适用。由于最初分配的份额无法全部满足,所有份额按比例缩减,使其总和恰好等于遗产总额。例如,若规定份额合计为 1/2 + 1/6 + 2/3 = 8/6(大于 1),则通过 'awl 按比例缩放各份额,使总分配量符合遗产范围。 - **None(无)**:当份额总和恰好等于遗产,或残余继承人自然吸收剩余部分时,无需调整。 5. **Post-Tasil ('ba'da al-taṣīl)**:应用任何调整后的最终归一化分配。该组件包含: - `total_shares`:调整后分数分布的分母。 - `distribution`:列出每位继承人的最终分配额,既以分数形式表示(如 “3/12”),也以归一化百分比表示(如 25.0%)。此阶段需要精确的数值计算,以确保所有百分比之和恰好为 100%,并正确反映所应用的调整。 #### 1.3.2. Task Complexity 尽管伊斯兰继承遵循确定性的教法学规则,理论上可以用符号规则引擎以完美准确度实现,但 QIAS 2026 任务评估的是一种截然不同的能力:**从自然语言到结构化输出的端到端神经推理**。不同于在预结构化输入上运行并应用显式编程逻辑的规则系统,神经网络模型必须同时解决多个相互依赖的挑战: - **自然语言理解**:模型必须解析具有多样语言学表达的阿拉伯语文本以提取家庭关系。同一继承人类别可通过多种词汇变体表达(例如,“母亲” vs “父系母亲”),数量需从数词-名词结构推断(如“两个儿子”),且关系类型必须消歧(某兄长称谓可表示同父同母、同父异母或同母异父兄弟)。从非结构化文本中提取实体和解析关系构成了符号方法中不存在的核心 NLP 挑战。 - **通过习得模式的 Conditional Logic**:份额分配依赖于其他继承人的存在与否(例如,若无子女,妻子得 1/4;否则得 1/8)。不同于将此类条件显式编程的规则系统,神经网络模型必须从训练示例中学习这些条件依赖性。在仅有有限数据且存在类别不平衡的情况下(例如,radd 仅占案例的 2.8%),模型必须泛化所学模式以应对未见过的继承人组合。 - **通过模式识别的 Hierarchical Blocking**:较远亲属会按照优先权规则被较近亲属排除(例如,儿子阻断孙子,父亲阻断叔叔)。模型必须从示例中学习这些层级关系,而非执行显式的家谱图,这需要针对包含多代人的复杂家庭结构进行模式识别。 - **Conditional Algorithm Selection**:模型必须根据计算的份额总量检测应应用哪种分配算法。标准案例(92.3%)在存在男性旁系血亲继承人('asaba)时使用残余分配;'awl 案例(4.9%)在份额超过 1 时需要比例缩减;radd 案例(2.8%)在份额总和小于 1 且无残余继承人时需要盈余重分配(详见 2.3 节 https://arxiv.org/html/2604.16396#S3.SS2)。正确检测需要算术计算(检查份额总和是否 <<1、==1 或 >>1)和逻辑推理(验证残余继承人的缺席)。训练数据中调整案例的统计稀有性加剧了学习挑战。 - **文本生成中的数值精度**:与基于符
相似文章
QIMMA قِمّة ⛰: 以质量为核心的阿拉伯语 LLM 排行榜
QIMMA 是由 TII UAE 推出的全新以质量为核心的阿拉伯语 LLM 排行榜,它在评估前对基准测试进行验证,以确保性能测量的准确性。该排行榜通过严格的多阶段验证流程,解决了现有阿拉伯语 NLP 基准测试中存在的系统性质量问题。
MedQA:在AMD ROCm上微调临床AI——无需CUDA
一个教程和项目,演示在AMD MI300X上使用ROCm对Qwen3-1.7B进行LoRA微调,用于临床问答,为医疗AI开发提供无需CUDA的替代方案。
我们开源了 Chaperone-Thinking-LQ-1.0:4-bit GPTQ + QLoRA 微调的 DeepSeek-R1-32B,MedQA 84%,仅 20GB
EmpirischTech 发布 Chaperone-Thinking-LQ-1.0:用 4-bit GPTQ + QLoRA 微调的 DeepSeek-R1-32B,MedQA 得分 84%,体积仅 20GB,可本地部署于医疗场景。
OThink-SRR1:用强化学习为大模型实现搜索、精炼与推理
OThink-SRR1 提出迭代式“搜索-精炼-推理”框架,通过 GRPO-IR 强化学习降低检索噪声与 token 开销,同时提升多跳问答准确率。
超越选择题:带有方言变体的开放式阿拉伯文化问答基准
本文介绍了首个跨越现代标准阿拉伯语和多种方言的平行阿拉伯文化问答基准,将选择题转换为开放式问题,并利用思维链推理评估大语言模型,以解决文化知识和方言特定知识的缺陷。