标签
本文概述了QIAS 2026共享任务,该任务聚焦伊斯兰继承推理,利用MAWARITH基准评估大语言模型在多步骤法律和数值推理方面的能力。
本文介绍了PSL团队在2026年阿拉伯伊斯兰继承推理共享任务(QIAS 2026 Shared Task)中的参与情况,对比了商业和开源大语言模型。结果显示,商业模型(如Gemini 2.5 Flash)在处理具有多步依赖的结构化法律推理方面显著优于开源模型。
本文介绍了一种量子启发式方法EP-HUBO,它将链式思维推理中的证据选择视为组合优化问题,通过允许少数但正确的假设覆盖嘈杂的多数,在MMLU-Pro法律和LEXam等法律推理基准测试中显著提升了性能。
本文介绍了一套用于法律AI的相关性敏感评估套件,表明LLM对法律无关的扰动过于敏感,并提出LexGuard,一个基于形式推理的对抗性多代理框架,以提高法律推理的可靠性。
本文实证研究了LLMs在税法中的法律推理,表明数据污染会夸大性能,而神经符号混合系统比单体LLMs提供更可靠和稳健的泛化能力。
本文指出了人工智能法律推理中法律解释与形式逻辑之间的系统性鸿沟,提出了一种神经符号方法来弥合这一鸿沟,并展示了在严格形式蕴含条件下重新标注法律自然语言推理数据时出现的显著标签偏移。
本文介绍了卡塔尔大学针对阿拉伯语伊斯兰继承推理提出的基于 Qwen3-4B 的多阶段 QLoRA 微调方法。该方法首先对伊斯兰教令(fatwa)记录进行领域适配,随后在 12,000 个结构化继承案例上进行任务特定训练,最终达到 90% 的 MIR-E 得分。其性能媲美 Gemini-2.5-flash 等商业系统,且仅需极少的计算资源。
VLegal-Bench 是一个认知基础基准测试,用于评估大语言模型在越南法律推理任务中的表现,包含 10,450 个专家标注样本,旨在填补民法系统法律基准的空白。该基准通过问答、多步推理和场景问题解决来评估多个层次的法律理解,为在非英文、成文法律背景下评估大语言模型提供了一个可复现的框架。