用于法律AI的神经符号AI-TRISM:值得信赖、可靠、可解释、安全的模型
摘要
本立场论文提出了TRISM框架,该框架将神经符号AI与LLMs和RAG相结合,以解决法律AI中的幻觉和可解释性问题,引入了RASOR RAG用于生成可解释的理由,并形式化了符号化法律知识库。
arXiv:2606.15646v1 Announce Type: new
摘要:大语言模型(LLMs)已经改变了自然语言处理,但它们缺乏可解释的推理能力且易于产生幻觉,这给法律应用带来了重大挑战。尽管LLMs在法律文本分析和生成方面显示出潜力,但在准确的引用归属和先例验证方面仍存在困难。例如,在法律语境中,一个错误的先例就可能毁掉一个案件。当前改进法律领域LLM可靠性的方法存在两个关键局限:在训练或微调过程中对结构化法律知识的整合不足,以及对生成的法律内容缺乏充分的验证机制。为了解决这些问题,我们提出了TRISM(值得信赖、可靠、可解释、安全模型)框架,该框架将神经符号AI原理与LLMs相结合,以同时利用神经学习能力和对结构化法律知识的符号推理。TRISM方法在保持可解释决策路径的同时解决了上述局限性。我们的框架形式化了从法律文本中提取符号知识的过程,并将检索增强生成(RAG)作为核心组件,以将LLM输出建立在经过验证的法律来源上。在本立场论文中,我们做出以下贡献:(1)分析了AI在法律中的局限性;(2)引入了RASOR RAG,通过生成可明确解释的理由(可形式化为符号表示)为神经符号RAG奠定了基础;(3)提出了一种创建符号化法律知识库的形式化方法,支持LLM中的可解释推理和输出验证;(4)提出了用于将符号法律知识与LLM集成的TRISM框架。
查看缓存全文
缓存时间: 2026/06/16 11:47
# NeuroSymbolic AI for Legal AI-TRISM: 可信、可靠、可解释、安全的模型 来源:https://arxiv.org/html/2606.15646 Yash Saxena†, Ankur Padia†, Srinivasan Parthasarathy‡, and Manas Gaur† †计算机科学系,AI研究所,南卡罗来纳大学,哥伦比亚,南卡罗来纳,美国 ‡计算机科学与电气工程系,马里兰大学巴尔的摩县,巴尔的摩,马里兰,美国 [email protected] ###### 摘要 大型语言模型(LLMs)已经改变了自然语言处理,但它们缺乏可解释的推理能力且容易产生幻觉,给法律应用带来了重大挑战。虽然LLMs在法律文本分析和生成方面显示出潜力,但在准确归因引用和验证先例方面存在困难。例如,在法律环境中,一个错误的先例可能危及整个案件。当前在提升LLM在法律领域可靠性方面的方法存在两个关键局限性:在训练或微调过程中缺乏对结构化法律知识的整合;以及生成的法律内容验证机制不足。为应对这些挑战,我们提出了TRISM(可信、可靠、可解释、安全模型)框架,该框架将神经符号AI原理与LLMs相结合,以利用神经学习能力和基于结构化法律知识的符号推理。TRISM方法在保持可解释决策路径的同时,解决了上述局限性。我们的框架将符号知识的提取形式化,从法律文本文档中获取,并将检索增强生成(RAG)作为核心组件,用于将LLM输出锚定在经过验证的法律来源上。在本文中,我们做出了以下贡献:(1) 分析了AI在法律中的局限性;(2) 引入RASOR RAG,通过生成可形式化为符号表示的明确可解释理由,为神经符号RAG奠定基础;(3) 一种形式化的方法论,用于创建支持LLM可解释推理和输出验证的符号法律知识库;(4) 用于将符号法律知识与LLMs集成的TRISM框架。 ###### 关键词 神经符号AI、归因、知识图谱、大型语言模型、检索增强生成、法律、法律AI ## 1 引言 2024年,美国一家法院因律师提交由人工智能(AI)生成的、夹杂虚构引用的法律摘要而对其进行制裁——这一事件生动地说明了在高压法律环境中未经核实的AI使用所带来的风险(路透社,2024)。然而,尽管有此类警示,生成式AI正迅速改变法律行业,在文档分析、法律研究和草稿准备中的应用日益增多([66];B. Liu,2024)。特别是大型语言模型(LLMs)在高效处理法律文档、提取关键信息以及协助起草合同、摘要和备忘录的初步版本方面展现出巨大潜力(Qin and Sun, 2024a;Constant et al., 2024;Drápal et al., 2023)。虽然基于LLM的AI系统能够识别法律术语并建议相关先例,但其能力仍然有限,需要谨慎的人工监督以确保准确性和一致性(Olga and Kassi, 2024;Kyryl, 2024)。此外,这类系统在下游法律应用中面临重大挑战,特别是在理解复杂法律原则及其上下文应用方面(Lai et al., 2023)。 为了更好地理解问题,考虑一个房东与租户之间关于紧急维修的纠纷。在零样本场景下,LLM可以正确识别租户通常有权因严重的宜居性问题(如冬季供暖系统故障)而扣留租金。然而,现成的模型可能无法考虑特定州的法律和附加信息,这些信息要求租户在扣留租金前以书面形式通知房东并提供合理的维修期限。此外,在建议关于扣留租金的相关案例时,LLM可能遗漏关键的地方法院判决,这些判决要求租户将扣留的租金存入托管账户。以上例子说明了LLM如何能够模拟对基本法律原则的理解,但在基于管辖权的细微要求与程序步骤(经验丰富的律师日常用来适当建议客户的知识)上存在困难。 法律推理通常需要综合多个法律来源,包括宪法、成文法、法规、判例法以及有说服力的二手资料,且这些来源可能跨越重叠的管辖权和时间段。LLM无法识别地方法规与一般原则之间的优先级,其中地方法规可能优先于一般原则(Qin and Sun, 2024b)。这种对法律层级和管辖权细微差别的理解局限,凸显了当前LLM的能力与局限,以及为确保准确的法律分析和建议而需要人类法律专业知识。 神经符号AI代表了一种新颖方法,它将神经网络与符号推理(例如知识图谱、法律先例、指南)相结合,以帮助构建可信的AI系统(Tilwani et al., 2024b)。基于神经符号AI的方法结合了神经网络的模式识别能力与符号系统的逻辑推理能力,解决了各自单独使用时的方法局限性(Sheth et al., 2023)。神经组件处理原始数据并学习模式,这是其擅长之处。而符号元素对于识别数据中显式和隐式的实体及其关系是必要的,从而支持逻辑推理和基于规则的处理。通过结合符号组件,神经网络可以更好地遵循专家指令,理解结构化知识(如法律指南或先例),在需要时回忆这些知识,并产生专家易于理解的输出。 尽管通过人类反馈和训练取得了进展,但像ChatGPT这样的当前AI模型仍然难以产生既在领域内安全又可在推理上追溯的信息(Mora-Cantallops et al., 2021)。神经符号AI通过将结构化符号知识与神经模式相结合来应对这些局限性,从而减少幻觉、提高可解释性并增强推理能力。Gaur and Sheth(2024)提出的CREST框架展示了神经符号方法如何在关键应用中确保一致性、可靠性和安全性。 在本文中,我们做出了以下贡献:(1) 分析了现有AI驱动方法及其在法律应用中的局限性;(2) RASOR表明,透明、结构化的推理不仅提高了可解释性,而且实际上实现了更优的性能——将幻觉率从75%降低到40%以下。这一经验性验证为全面的神经符号集成创造了跳板,并由我们形式化的知识图谱方法论支持;(3) 一种形式化的方法论,用于创建支持LLM可解释推理和输出验证的符号法律知识库;(4) 用于将符号法律知识与LLMs集成的TRISM框架,以满足受监管领域的关键标准,包括准确性、可解释性、公平性、安全性和监管保障。 ## 2 当前法律AI的挑战 LLMs在包含数千亿Token的大规模数据集上训练,通常能模拟对真实世界的理解。这些能力在摘要(Licari et al., 2023)、边界检测(Qu and Meng, 2024)、信息抽取(Goebel et al., 2023)、法律判决预测(Jiang and Yang, 2023)、命名实体识别(Lee et al., 2023)和文本分割(Aumiller et al., 2021)等任务中带来了性能提升。然而,如下所述,存在若干挑战: - **复杂的家庭法案件**:在子女监护安排中,AI难以理解需要超越当前AI能力的细致家庭动态、情感考量及子女福祉(Estreicher and Polani, 2025)。人类律师能够考虑同理心、后果和生活经验,做出AI无法复制的判断。 - **伦理困境**:在法律环境中导航伦理困境需要对职业责任、道德原则及行动潜在后果有深刻理解。“E.F. Hutton & Co. v. Brown”(1986)案说明了公司法中利益冲突的复杂性,凸显了严格利益冲突检查和透明沟通的重要性(Jessa, 2024)。 - **法律中的因果推理**:法律推理通常涉及理解因果关系,而LLMs难以掌握这一点。在分析复杂事件链或确定复杂法律案件中的责任时,这一局限尤为明显(McGinnis, 2024)。 - **类比推理**:虽然生成式AI可以识别相似案例(例如LegalRAG),但在确定哪些案例真正相似及原因这一细致任务上存在困难。这需要对法律原则及其背后原理有更深入的理解,而当前AI系统缺乏这一点(Sunstein, 2001)。 - **上下文解读**:AI通常以碎片化方式处理信息,关注特定词语或短语而没有把握整体语境(例如LegalBERT,Chalkidis et al., 2020)。这可能导致对法律概念的误读。**法律语言**通常需要基于语境的细致解读。AI可能难以区分对人类法律专家来说清晰的含义的微妙变化。**法律推理**常常依赖隐性的理解和不成文的原则。AI系统可能遗漏这些关键元素,导致分析不完整或不准确。 - **幻觉与时间不匹配**:一项斯坦福-耶鲁的研究质疑了主要法律AI提供商(包括Thomson Reuters、Casetext和LexisNexis)的声明,即他们的检索增强生成(RAG)工具已经消除了幻觉。尽管有此保证,研究发现他们的产品仍有33%的时间产生幻觉,而GPT-4是43%(Magesh et al., 2024)。 为了应对上述挑战,前进的道路在于开发结合神经网络模式识别优势与符号推理能力的神经符号系统。这种混合系统可以更好地表示和操作法律概念、规则和先例,同时保持处理自然语言的灵活性。通过纳入显性知识表示和逻辑推理机制,下一代法律AI助手可以提供更可靠的分析,更好地处理边缘情况,并提供更清晰的推理解释。 ## 3 重新思考RAG:神经符号方法的必要性 最近的研究揭示了法律AI中令人担忧的幻觉率,LLMs在特定法律查询上产生误导性回答的比例高达69%至88%(Dahl et al., 2024)。如图1所示,GPT-4和SaulLM-7B(Colombo et al., 2024)都未能正确解释合同理解Atticus数据集(CUAD)(Hendrycks et al., 2021)中一份合同的赔偿条款。值得注意的是,SaulLM-52B建立在Mixtral-54B架构之上。该架构是一种基于Transformer的模型,并通过专家混合(MoE)层增强,以提高计算效率和适应性,用于处理大量上下文。Mixtral-54B的微调涉及大量法律语料库,以理解法律文档并生成法律文本。尽管进行了大量的监督微调,生成的结果仍不正确。 合同摘录: 第4.2节:甲方应赔偿乙方因违反本协议而产生的第三方索赔,但甲方无需赔偿因乙方的重大过失或故意不当行为引起的索赔。 查询:甲方是否需要赔偿乙方的所有第三方索赔? GPT-4响应:是的,甲方必须赔偿乙方因违反本协议而产生的所有第三方索赔。 SaulLM响应:是的,第4.2节要求甲方赔偿乙方因违反协议而产生的所有第三方索赔。 图1:SaulLM和GPT-4缺乏上下文。测试于2025年7月8日 法律专业人士希望了解LLM是如何得出特定法律结论或建议的。更具体地说,模型是否恰当识别了相关成文法或判例法?是否恰当权衡了相互竞争的法律原则?如图1所示,两个LLM(GPT-4和SaulLM)都未能识别出一个限制甲方义务的关键例外。相反,模型仅关注初始要求,忽略了后续的限定性语境。这一失败凸显了一个根本性局限:这些模型常常难以捕捉复杂法律条款中的语境细微差别,从而削弱了它们在高风险法律解释中的可靠性。 现有解决方案,例如增加上下文窗口或使用RAG,提供了一些补救,但未能解决错误(幻觉)和透明度的核心问题(Barnett et al., 2024)。增加上下文窗口会增加计算复杂性,同时生成冗长的输出,可能掩盖关键的法律推理。相反,RAG将回应锚定在权威法律来源,有助于缓解——然而最近研究报告,在商业化法律研究工具中持续存在17-34%的幻觉率(Magesh et al., 2024)。这些缺陷很大程度上源于RAG依赖于复杂且往往不透明的设计决策,包括分块大小、检索阈值等。
相似文章
连接法律解释与形式逻辑:忠实性、假设与人工智能法律推理的未来
本文指出了人工智能法律推理中法律解释与形式逻辑之间的系统性鸿沟,提出了一种神经符号方法来弥合这一鸿沟,并展示了在严格形式蕴含条件下重新标注法律自然语言推理数据时出现的显著标签偏移。
哪些变化重要?通过相关性敏感评估和求解器推理实现可信赖的法律AI
本文介绍了一套用于法律AI的相关性敏感评估套件,表明LLM对法律无关的扰动过于敏感,并提出LexGuard,一个基于形式推理的对抗性多代理框架,以提高法律推理的可靠性。
LegalHalluLens:类型化幻觉审计与校准的多智能体辩论,实现可信赖的法律AI
本文介绍了LegalHalluLens,一个用于审计法律AI中幻觉的框架,提供类型化幻觉档案和风险方向指数,以提升可信赖部署。
推理者还是翻译者?税法中的污染感知评估与神经符号鲁棒性
本文实证研究了LLMs在税法中的法律推理,表明数据污染会夸大性能,而神经符号混合系统比单体LLMs提供更可靠和稳健的泛化能力。
面向数据敏感领域的LLM输出的神经符号验证(扩展预印本)
本文提出了一种针对高风险领域LLM输出的神经符号验证架构,结合形式化符号方法与神经语义分析。在一个医疗器械损伤评估系统上进行的评估显示,该架构对结构化实体的幻觉检测率超过83%,语义虚构的检测率达72%,报告创建时间缩短30%。