QIAS 2026: 伊斯兰继承推理共享任务概述
摘要
本文概述了QIAS 2026共享任务,该任务聚焦伊斯兰继承推理,利用MAWARITH基准评估大语言模型在多步骤法律和数值推理方面的能力。
arXiv:2606.13756v1 公告类型: 新
摘要: 本文全面概述了QIAS 2026共享任务,该任务是OSACT7研讨会的一部分,与LREC 2026同期举办。该共享任务旨在评估大语言模型在伊斯兰继承这一宗教与法律领域进行复杂推理的能力。与传统的问答基准不同,QIAS 2026专注于从自然语言案例出发进行端到端推理,要求系统完成完整的继承计算过程,从识别合格继承人到为每位受益人分配正确的份额。为支持这一评估,任务基于MAWARITH基准,该基准包含$12{,}500$个阿拉伯语继承案例,并标注了中间推理步骤和最终答案。系统提交结果使用MIR-E进行评估,这是一种多步骤指标,衡量继承推理主要阶段的性能。共有$16$个团队参加了本次共享任务,研究了一系列方法,包括基于提示的方法、检索增强生成和微调策略。结果表明,伊斯兰继承对于当前的语言模型来说仍然是一个极具挑战性的基准,尤其是在需要精确法律解释和结构化数值推理的阶段。本概述总结了任务设计、数据集、评估框架、参与系统及主要结果。
查看缓存全文
缓存时间: 2026/06/15 08:56
# QIAS 2026:伊斯兰继承推理共享任务概述 来源:https://arxiv.org/html/2606.13756 ###### 摘要 本文全面介绍了 QIAS 2026 共享任务,该任务作为 OSACT7 研讨会的一部分举办,并与 LREC 2026 同期进行。该共享任务旨在评估大型语言模型在伊斯兰继承这一宗教与法律领域中进行复杂推理的能力。与传统的问答基准测试不同,QIAS 2026 侧重于基于自然语言案例的端到端推理,要求系统执行完整的继承计算过程,从识别合格继承人到为每位受益人分配正确的份额。为支持这一评估,该任务基于 MAWARITH 基准测试,该数据集包含 12,500 个阿拉伯语继承案例,并标注了中间推理步骤和最终答案。系统提交的结果使用 MIR-E 进行评估,这是一个多步指标,用于衡量继承推理主要阶段的性能。共有 16 支团队参与了该共享任务,探索了多种方法,包括基于提示的方法、检索增强生成和微调策略。结果表明,伊斯兰继承问题对当前语言模型仍是一个极具挑战性的基准,尤其是在需要精确法律解释和结构化数值推理的阶段。本概述总结了任务设计、数据集、评估框架、参与系统及主要结果。 关键词:多步推理,伊斯兰继承推理,阿拉伯语处理 \\NAT@set@cites QIAS 2026:伊斯兰继承推理共享任务概述 Abdessalam BOUCHEKIF¹, Somaya ELTANBOULY¹, Samer RASHWANI¹, Shahd GABEN¹, Mutaz AL-KHATIB¹, Heba SBAHI¹, Emad MOHAMED², Mohammed GHALY¹ ¹ 哈马德·本·哈利法大学,卡塔尔 ² 纳扎尔巴耶夫大学,哈萨克斯坦 {abouchekif,seltanbouly,srashwani,sgaben,malkhatib,hsbahi,mghaly}@hbku.edu.qa [email protected] 摘要内容 ## 1. 引言 大型语言模型(LLM)近期在广泛的自然语言处理任务中表现出色,包括问答、摘要和复杂文本生成。它们的成功在受益于广泛语言覆盖和大规模预训练的任务中尤为明显。然而,LLM 在需要精确推理、结构化决策以及严格遵守领域特定规则的专业领域中仍面临重要挑战。这些局限性在需要一系列依赖推理步骤的任务中更为突出,早期阶段的错误可能会传播并损害最终答案。这一问题在宗教和法律领域尤为重要,因为这些领域的推理不仅需要大量知识,还受到正式原则和解释传统的约束。 在伊斯兰研究,特别是伊斯兰法律中,系统必须对诸如《古兰经》、圣训和法学著作等权威且高度结构化的来源进行推理。它们还必须在基于明确法律原则的框架内运作,并在某些情况下考虑不同法学派的解释差异。因此,在此类背景下评估 LLM 需要超越表层问答的基准,转而测试模型产生精确且忠实推理的能力。 伊斯兰继承法(‘ilm al-mawārīth)是评估推理能力的有效测试平台。这一伊斯兰法学领域需要多步的法律和数值推理来解决案例。一个有效的解决方案必须识别符合条件的继承人,确定哪些继承人是被排除或阻止的,分配适当的份额,评估调整的必要性,并计算最终分配。该过程受严格的法学规则约束,某些案例还会带来额外的复杂性,如 ‘awl 和 radd。由于其法律解释、结构化推理和精确计算相结合的特点,伊斯兰继承法为评估现代语言模型的推理能力提供了信息量丰富的基准。 为了支持这一方向的研究,近期工作引入了 MAWARITH(Bouchekif 等人,2026),这是一个包含 12,500 个阿拉伯语继承案例的大规模基准,专为基于自然语言描述的端到端推理而设计。该基准包含详细的中间推理步骤和最终答案,使得不仅可以评估最终输出的正确性,还可以评估推理过程本身的有效性。这一资源创造了一个机会,使得评估可以超越标准的多项选择形式,转向更现实的场景,即系统必须像人类一样阅读和理解继承案例并加以解决。 QIAS 2026 共享任务旨在评估参与系统能否用阿拉伯语执行端到端的伊斯兰继承推理。它专注于从自然语言解决完整案例,涵盖从继承人识别到最终份额分配的完整推理过程。同时,它也考察近期面向推理的 LLM,如 Gemini、GPT、DeepSeek、Fanar 和 Qwen,能否将其在数学和合成基准上的强劲表现迁移到结构化的法律和宗教推理这一更复杂的领域。 在本文中,我们概述了 QIAS 2026 共享任务。我们描述了任务、评估中使用的 MAWARITH 基准、多步评估指标 MIR-E、参与系统以及提交方法所取得的主要结果。我们还讨论了从该共享任务中吸取的关键经验教训,并强调了当前系统在伊斯兰继承推理中仍面临的主要挑战。 ## 2. 任务描述 QIAS 2026 共享任务专注于基于自然语言的伊斯兰继承推理(‘ilm al-mawārīth)的端到端自动化。该任务要求系统处理阿拉伯语继承案例,并生成完整、结构化的解决方案。对于每个输入问题,系统必须产生详细的逐步推理过程(),接着是简洁的最终答案()。该任务被表述为一系列依赖的推理阶段。系统需要识别并明确报告以下组成部分: 1. 1. 识别所有提到的继承人,包括根据适用的阻止规则(hajb)确定哪些符合条件或被排除。 2. 2. 根据古典伊斯兰继承法学,遵循多数意见(al-jumhūr),为符合条件的继承人分配正确的法定份额(furūḍ)。 3. 3. 确定是否需要对分配进行全局调整。 4. 4. 计算最终遗产分配,包括适用 ‘awl(比例减少)或 radd(剩余返还)等调整的情况。 参与者必须以结构化格式(例如 JSON)提交输出,以捕获这些推理步骤。这种表示方式支持细粒度评估,并允许分析不同类型的错误,例如法律推理错误与数值计算错误。 ## 3. 数据 QIAS 2026 的数据来自 Bouchekif 等人(2026)引入的 MAWARITH 基准。它包含 12,500 个用阿拉伯语编写的案例,遵循伊斯兰继承法中的多数意见(al-jumhūr)。表 1 展示了案例在训练集和测试集中的分布,以及基准所涵盖的复杂度类别。 表 1:按法律复杂度划分的继承案例分布 每个案例用自然语言描述了一个完整的继承情况。系统必须识别案例中提到的继承人,确定哪些继承人被阻止规则排除,分配正确的法定份额,决定是否需要进行调整,并计算遗产的最终分配。通过这种方式,基准不仅测试最终答案,还测试正确解决继承案例所需的完整推理过程。 数据集涵盖了古典伊斯兰继承法中广泛存在的家庭关系,包括父母、子女、配偶、兄弟姐妹、祖父母、叔伯、侄子以及其他远亲。 MAWARITH 数据集的构建分为几个阶段。首先,使用 Almawarith 计算器生成继承案例,该计算器允许用户通过结构化界面定义继承人及其数量,然后生成相应的份额。这一步提供了可靠的基础,并有助于确保法律和数值结果的正确性。由于 MAWARITH 的目标是评估基于自然语言的推理,这些结构化案例随后被改写为流畅的阿拉伯语继承问题,更接近真实用户查询。然后,由一位伊斯兰研究专家审查并丰富了输出,为每个案例添加了详细的法律和数值解释。这些解释涵盖了继承推理的主要阶段,包括继承人识别、阻止规则、份额分配以及调整案例(如需要时的 ‘awl 和 radd)。为提高一致性,专家编写的解释在 Gemini-2.5-Flash 的支持下进行了标准化,同时保持了法律推理不变。最后,数据集经过仔细验证,确保问题、推理步骤和最终继承份额之间的一致性。 ### 3.1. MIR-E:马瓦里斯继承推理评估 表 2:参与测试阶段并提交论文至 QIAS 2026 的团队所属机构。 QIAS 2026 共享任务使用 MIR-E(马瓦里斯继承推理评估)(Bouchekif 等人,2026),这是一个加权多阶段指标,用于评估伊斯兰继承问题中的中间推理步骤和最终输出。与仅基于最终答案的标准评估不同,MIR-E 通过对推理过程的主要阶段进行评分,提供了更细粒度的评估。它包括四个组成部分: 1. 1. 继承人与阻止($S_h$):评估模型是否正确识别了有效继承人、被阻止的继承人及其数量。 2. 2. 份额分配($S_s$):衡量为符合条件的继承人分配的份额是否正确。 3. 3. 调整($S_a$):检查模型是否预测了正确的调整类型(无、'awl 或 radd),并且仅在前两个阶段完全正确时才进行评分。 4. 4. 最终分配($S_f$):评估模型在完成整个继承过程后是否产生了正确的最终分配。 ## 4. 结果与讨论 表 3:QIAS 2026 参与测试阶段并提交论文的团队的官方排行榜结果 共有 16 支团队参与最终阶段。表 2 总结了参与测试阶段并提交论文的团队所属机构。我们提供了使用 Fanar-Sadiq(一种可通过 API 访问的现代阿拉伯语大型语言模型)的基线实现。该基线完全依赖提示技术,未经任何微调。其目的是为评估模型性能提供一个简单而有效的参考点。数据集和基线代码已在线公开提供。¹¹¹https://gitlab.com/islamgpt1/qias_shared_task_2026 总体而言,提交的系统展示了三种主要方法论方向:(i) 仅使用提示的端到端推理,(ii) 专门针对该任务微调的模型,以及 (iii) 将基于 LLM 的语言理解与确定性符号推理相结合的混合流水线。这种方法的多样性使得该共享任务对于比较不同策略在阿拉伯语法律推理中的应用尤为有用。 参与系统探索了解决伊斯兰继承案例的不同方式。参与者探索的最常见方法是基于提示的、使用大型语言模型的端到端推理。团队 PSL(Mouhoub 和 Bouchekif,2026)遵循了这一设置,并评估了多个模型,包括 Gemini 2.5 Flash、Qwen3-32B、GPT-oss-120B、Llama-3.3-70B、Fanar-Sadiq 和 Fanar-C-2-27B。团队 KMS(Alkhamis,2026)探索了类似方向,并评估了 Gemini 2.5 Pro 和 Mistral。总体而言,两个团队报告了相似的性能趋势:商业模型通常更可靠,而开放权重模型在该任务上表现较弱。 团队 CVPD(Swaileh 等人,2026)在共享任务中取得了最佳结果,他们提出了一种基于 RAG 的流水线,旨在生成符合 MIR-E 评估格式的输出。他们的系统从合成的法律问答对中构建知识库(可选择包含书籍),然后在生成单个 JSON 输出之前,为每个阿拉伯语继承问题检索相关上下文。该输出遵循所需的模式,包括符合条件的继承人、被阻止的继承人、法定份额、适用的调整类型以及最终的 taṣīl 分配。该系统还包括解析和验证步骤,以确保与官方评估器的兼容性。这种方法表明,将检索、受控生成和结构化输出约束相结合对该任务非常有效。 团队 Silah(Kurdi 等人,2026)研究了三种策略:基于策划规则库的检索增强生成、大型语言模型的监督微调,以及微调与检索的结合。他们的实验表明,仅微调就优于基于检索的方法,而最佳结果是通过微调的 Fanar 模型获得的。这表明任务特定的微调可能是伊斯兰继承推理的有效方法。 团队 QU-NLP(Alsmadi,2026)提出了一种多阶段量化低秩适应(QLoRA)策略。他们的方法首先在伊斯兰法特瓦语料库上进行初始领域适应,以捕捉法学推理模式,随后在结构化继承案例上进行任务特定微调,以优化 JSON 格式的输出。这种方法使得一个相对较小的 4B 参数模型能够取得有竞争力的性能,突显了专门训练策略在复杂法律推理任务中的有效性。 团队 AGS-KSU(Sidaoui,2026)也探索了使用 Qwen2.5-3B 进行微调的方法,与团队 QU-NLP 采用的策略相似。然而,该微调模型获得的 MIR-E 得分相对较低,为 0.30。相比之下,他们使用 GPT-5.4 Thinking 的基于提示的配置达到了 0.84,得到了明显更强的结果。 最后,一些团队明确分离了自然语言理解与法律计算。团队 Simplicity(Almansour,2026)提出了一种两阶段神经符号流水线,其中商业 LLM 仅用于阿拉伯语信息提取。提取的继承人被映射到一组标准化的法定继承人类别,然后传递给一个符号规则组件,该组件根据 ‘ilm al-mawārīth 的规则执行阻止、份额分配和最终计算。这种设计体现了 LLM 与符号模块之间明确的职责分工。 提交系统的最终性能总结在表 3 中。相似文章
QU-NLP 亮相 QIAS 2026:面向阿拉伯语伊斯兰继承推理的多阶段 QLoRA 微调
本文介绍了卡塔尔大学针对阿拉伯语伊斯兰继承推理提出的基于 Qwen3-4B 的多阶段 QLoRA 微调方法。该方法首先对伊斯兰教令(fatwa)记录进行领域适配,随后在 12,000 个结构化继承案例上进行任务特定训练,最终达到 90% 的 MIR-E 得分。其性能媲美 Gemini-2.5-flash 等商业系统,且仅需极少的计算资源。
哪些模型在继承推理中表现更好?
本文介绍了PSL团队在2026年阿拉伯伊斯兰继承推理共享任务(QIAS 2026 Shared Task)中的参与情况,对比了商业和开源大语言模型。结果显示,商业模型(如Gemini 2.5 Flash)在处理具有多步依赖的结构化法律推理方面显著优于开源模型。
SAHM:首个阿拉伯语金融与符合伊斯兰教法推理基准
研究人员发布 SAHM,首个包含 14,380 条专家验证样本的阿拉伯语金融基准,涵盖符合伊斯兰教法的推理,20 个受评 LLM 表现差距显著。
LLM推理的周期表:推理范式、方法与失败模式的系统综述
一项综合分析超过300篇关于LLM推理的论文,提出了推理范式的分类体系,包括Chain-of-Thought、Multi-Hop、Mathematical、Commonsense等,并总结了常见的失败模式和研究空白。
A2RBench:一种自动化的可形式化验证抽象推理基准生成范式
本文介绍了A2RBench,一个用于为LLM生成可形式化验证的抽象推理基准的自动化流水线,它利用循环一致性来确保唯一解,并揭示当前LLM在3D推理任务上显著落后于人类。