Parthenon Law:一个自进化的法律智能体框架
摘要
Parthenon 是一个自进化的法律智能体框架,将 LLM 智能体组织为六个可审计层,并通过防数据泄漏的学习循环机制,在不修改模型权重的前提下提升端到端法律事务处理性能。基于 Harvey LAB 的大规模实证研究涵盖 12,510 条智能体轨迹,结果表明当前前沿智能体在严格事务完成度方面仍面临较大挑战,而 Parthenon 相比现有最优基线方法取得了显著提升。
查看缓存全文
缓存时间: 2026/06/05 02:08
# Parthenon法律框架:一种自进化法律智能体框架 来源:https://arxiv.org/html/2606.04602 ###### 摘要 随着智能体能力的不断增强,法律领域的LLM智能体有望将文档繁重的事务转化为可审查的工作成果——但可靠部署面临三大障碍:缺乏大规模证据来说明当前最强模型与执行框架组合在端到端法律事务中的表现;缺乏适配法律垂直领域的智能体架构,现有的只是通用框架;以及在一个随着新事实、新权威和新截止日期不断变化的环境中,系统缺乏从自身结果中学习的机制。我们逐一应对上述挑战。一项基于Harvey LAB的大规模实证研究——共12,510条智能体轨迹——表明,即使是前沿智能体也远未能在单次执行中完成完整事务:随着模型能力的提升,单项标准的准确率有所提高,但严格意义上的事务完成率依然停滞不前。随后我们提出**Parthenon**,一种自进化法律智能体框架,将模型(Model)、执行框架(Harness)、智能体角色(Agent roles)、法律知识(legal Knowledge)、确定性工具(deterministic Tools)和程序化技能(procedural Skills)分解为可审计的层面,支持来源溯源、日期与数字锚定、可交付成果合规性及议题闭环管理。最后,一个具有抗泄露机制的学习闭环将评分失败转化为对技能、工具和知识的与任务无关的编辑,使系统能够从经验中不断改进——就像律所在每个事务结束后完善其检查清单和操作手册一样——而无需修改模型权重。在我们的大规模实证分析中,Parthenon显著提升了最先进模型和执行框架在法律事务任务上的性能。 ## 1 引言 该领域正从助手式写作向能够摄取完整事务记录、跨事实与法律进行推理并返回可审查工作成果的智能体方向演进。在这一场景中,错误代价高昂:错过截止日期、计算无依据、遗漏议题、无效可交付成果,或无法溯源至案卷的建议。法律基准测试评估推理、检索和事实准确性\(Guha等,2023 (https://arxiv.org/html/2606.04602#bib.bib1);Pipitone和Houir Alami,2024 (https://arxiv.org/html/2606.04602#bib.bib22);Li等,2025 (https://arxiv.org/html/2606.04602#bib.bib20)\);Harvey的法律智能体基准测试(LAB)将其扩展至包含来源文件、可交付成果和专家评分标准的长期事务工作\(Grupe等,2026b (https://arxiv.org/html/2606.04602#bib.bib40)\)。然而,我们仍然缺乏关于当前最强模型和执行框架在端到端法律事务上实际表现的大规模实证分析、能够保护法律不变量的框架,以及将评分失败安全转化为可复用改进的机制。这些缺口阻碍了法律AI智能体在真实法律实践中的部署。 为衡量这一差距,我们在完整的Harvey LAB语料库上评估了主要的法律智能体执行系列:直接API提示、基础法律原生框架,以及Codex和Claude Code工作空间框架,每种均跨多个模型层级进行测试。LAB的"所有标准均须通过"评分机制类似于人类法律审查:一份遗漏了重要截止日期、权威来源、风险或所需可交付成果的备忘录仍属不完整。在这一标准下,随着模型增强,单项标准得分有所提高,但严格的事务完成率依然偏低。相同的失败模式在不同框架和模型升级中反复出现:来源覆盖不全、定量细节丢失、工作成果格式错误、议题分析未完成,以及锚定能力薄弱。瓶颈不仅仅在于模型本身,而在于缺乏围绕模型构建的结构化法律工作系统。 Parthenon通过一个以归因和可审计性为核心的六层框架来解决上述问题(图1 (https://arxiv.org/html/2606.04602#S1.F1))。下层使执行过程显式化:模型层(LLM能力)、执行框架层(工作空间运行时)和智能体角色层。上层以可编辑的制品形式存储法律专业知识:知识层(用于事务状态、概念、日历和模式);工具层(用于确定性检查、搜索、转换和起草后审计);以及技能层(用于工作计划和发布检查)。将这些层次分离,可以避免模型选择、法律记忆、工具行为和程序指导混杂成一个不透明的提示,同时使每次失败都能归因于可实际编辑的层面。每个评分事务都是对上层框架的反馈,而非需要模型记忆的数据:求解器(solver)生成工作成果,经过评分标准隔离的评估器(evaluator)将其转化为经过脱敏的反馈,学习器(learner)则针对技能、工具或知识提出与任务无关的编辑建议。这一机制与律所在不良结果后更新检查清单、表单和操作手册的方式相似。抗泄露协议确保评分标准文本、任务标识符、来源事实和答案键不进入学习器,因此候选编辑必须能够泛化到触发失败的批次之外。系统因此能够在不微调模型权重或记忆基准信号的情况下持续自适应改进。 我们在Harvey LAB上跨Codex和Claude Code框架以及三个模型层级运行了12,510条智能体轨迹。当前框架存在明显不足:更强的基础模型可提升单项标准准确率,但鲜少能使事务完整通过,即使最强基线也仅在约八分之一的事务中通过所有标准。在模型和智能体框架固定的情况下,加入Parthenon将汇总准确率分别提升了+13.8/+10.2/+7.4个百分点——达到82.0/89.9/90.2%——仅凭框架即可实现与模型升级相当的增益,并在较弱求解器上将严格全通过完成率大约提升至三倍(14→42,47→137)。 综上所述,我们的贡献包括:(i) 对Harvey LAB上主要智能体执行模式的大规模实证分析;(ii) Parthenon,一个具有可审计层面的六层法律智能体框架;以及(iii) 一个将评分失败转化为与任务无关的框架更新的自进化学习闭环。 Parthenon:自进化法律智能体框架 技能层(Skills):主题分类 | 失败模式 | 法律原则 | 法律脚手架 | 关系图谱 | 输出形式 | 抗泄露 | 数据隐私 …… 工具层(Tools):文档阅读器 | 法规搜索 | 窗口搜索 | 可交付成果搜索 | 数字审计 | 日期审计 | 引文核查 | 文档构建器 …… 知识层(Knowledge):模式 | 法规 | 时间线 | 文档类型 | 日历 …… 智能体层(Agent):求解器 | 评估器 | 学习器 …… 执行框架层(Harness):Codex | Claude Code | OpenClaw | OpenCode | OpenHands …… 模型层(Model):GPT | Claude | Gemini | DeepSeek | Kimi …… **图1:Parthenon六层法律智能体框架。** 每一层均为可替换的模块。模型层和执行框架层列举了兼容的模型家族和工作空间运行时;智能体层固定求解器-评估器-学习器角色;知识层和工具层存储法律知识库及其上可审计的检查、检索、计算、锚定和验证操作;技能层存储由学习器编辑的程序化脚手架。 ## 2 相关工作 ##### 法律基准测试与法律智能体评估 法律NLP基准测试大多采用有界任务:LegalBench\(Guha等,2023 (https://arxiv.org/html/2606.04602#bib.bib1)\)、LexGLUE\(Chalkidis等,2021 (https://arxiv.org/html/2606.04602#bib.bib8)\)、CUAD\(Hendrycks等,2021 (https://arxiv.org/html/2606.04602#bib.bib9)\)和LawBench\(Fei等,2024 (https://arxiv.org/html/2606.04602#bib.bib10)\)分别探讨推理、分类和条款提取。法律智能体系统\(Cui等,2023 (https://arxiv.org/html/2606.04602#bib.bib19);Li等,2025 (https://arxiv.org/html/2606.04602#bib.bib20);Mantravadi等,2025 (https://arxiv.org/html/2606.04602#bib.bib21)\)和来源锚定研究\(Pipitone和Houir Alami,2024 (https://arxiv.org/html/2606.04602#bib.bib22);Dahl等,2024 (https://arxiv.org/html/2606.04602#bib.bib23);Kant等,2025 (https://arxiv.org/html/2606.04602#bib.bib24);El Hamdani等,2024 (https://arxiv.org/html/2606.04602#bib.bib25)\)正在向有据可查的可交付成果方向推进。与我们的设置最为接近的是Harvey LAB\(Grupe等,2026b (https://arxiv.org/html/2606.04602#bib.bib40)\),它以数据室、可交付成果、全通过评分标准和广泛的业务领域/原型组合对事务式任务进行评分(图2 (https://arxiv.org/html/2606.04602#S2.F2))。然而,目前仍缺乏对这些系统的大规模实证分析,导致最先进智能体在开放式法律事务上的真实能力尚不明朗。 **图2:Harvey LAB数据集中按业务领域划分的主要任务原型分布。** 条形图在Harvey LAB的24个业务领域内进行了归一化处理;颜色表示主要任务类别。 ##### 智能体执行框架、外部化与记忆 *执行框架*——调度工作空间、工具、轨迹和输出约束的运行时——是长期评估的基本单元。SWE-agent和SWE-bench\(Yang等,2024 (https://arxiv.org/html/2606.04602#bib.bib71);Jimenez等,2023 (https://arxiv.org/html/2606.04602#bib.bib72)\)在软件工程领域明确了这一点;GAIA、WebArena和AgentBench\(Mialon等,2023 (https://arxiv.org/html/2606.04602#bib.bib69);Zhou等,2023 (https://arxiv.org/html/2606.04602#bib.bib70);Liu等,2023a (https://arxiv.org/html/2606.04602#bib.bib68)\)提供了可研究轨迹和工具使用的场景。通用工作空间智能体(Codex风格、Claude Code、OpenCode)将文件、shell、搜索和编辑外部化到可检查的工作空间中。法律工作还额外需要将专业记忆、来源溯源、截止日期、引文格式和审查信号作为版本化制品来管理。然而,这些框架均非为法律垂直领域设计,导致上述需求只能以临时提示的形式添加,而非作为架构的一等组件。 ##### 非参数化智能体学习 非参数化智能体改进通过编辑提示、程序和工作流来实现,而非修改模型权重。提示和程序优化(APE、OPRO、PromptBreeder、APO、TextGrad、PromptAgent、DSPy、GEPA;Zhou等,2022 (https://arxiv.org/html/2606.04602#bib.bib56);Yang等,2023 (https://arxiv.org/html/2606.04602#bib.bib57);Fernando等,2023 (https://arxiv.org/html/2606.04602#bib.bib58);Pryzant等,2023 (https://arxiv.org/html/2606.04602#bib.bib59);Yuksekgonul等,2024 (https://arxiv.org/html/2606.04602#bib.bib34);Wang等,2023 (https://arxiv.org/html/2606.04602#bib.bib60);Khattab等,2023 (https://arxiv.org/html/2606.04602#bib.bib33);Agrawal等,2025 (https://arxiv.org/html/2606.04602#bib.bib61)\)以及工作流搜索(DyLAN、MetaGen、ADAS、AFlow、SEVerA;Liu等,2023b (https://arxiv.org/html/2606.04602#bib.bib45);Wang等,2026 (https://arxiv.org/html/2606.04602#bib.bib38);Hu等,2024 (https://arxiv.org/html/2606.04602#bib.bib35);Zhang等,2024 (https://arxiv.org/html/2606.04602#bib.bib36);Banerjee等,2026 (https://arxiv.org/html/2606.04602#bib.bib48)\)将框架视为可搜索的优化目标,而多智能体系统\(Li等,2023a (https://arxiv.org/html/2606.04602#bib.bib62);Du等,2023 (https://arxiv.org/html/2606.04602#bib.bib63);Hong等,2023 (https://arxiv.org/html/2606.04602#bib.bib18);Qian等,2024 (https://arxiv.org/html/2606.04602#bib.bib64);Wu等,2023 (https://arxiv.org/html/2606.04602#bib.bib65);Chen等,2023 (https://arxiv.org/html/2606.04602#bib.bib39)\)则将角色分配给协作求解器。工具使用研究\(Schick等,2023 (https://arxiv.org/html/2606.04602#bib.bib17);Qian等,2023 (https://arxiv.org/html/2606.04602#bib.bib54);Qin等,2023 (https://arxiv.org/html/2606.04602#bib.bib55);Li等,2023b (https://arxiv.org/html/2606.04602#bib.bib67)\)和治理要求\(Riedl和Desai,2025 (https://arxiv.org/html/2606.04602#bib.bib26);Mökander等,2023 (https://arxiv.org/html/2606.04602#bib.bib27);Wachter等,2024 (https://arxiv.org/html/2606.04602#bib.bib28)\)进一步支持了确定性审计工具和人类可读差异比较的必要性。然而,上述研究均未针对法律推演这一成本高昂、对泄露高度敏感的场景,也未将法律领域专业化与自进化框架相结合。 ## 3 Parthenon框架架构 ### 3.1 Parthenon架构 ##### 设计原则 Parthenon围绕三项原则构建。**兼容性**:Codex、Claude Code及相关工作空间框架已经提供了法律工作所需的长期执行能力,包括文件管理、工具调用、迭代修订和轨迹捕获。因此,该框架以法律状态、确定性工具和程序化技能对其进行包装,而非取而代之。**法律专业化**:法律工作具有通用框架不会强制执行的严格专业不变量。错过截止日期可能构成失职,无依据的数字可能使条款无效,未引用权威来源属于不合格表现。Parthenon将这些不变量转化为强制执行的确定性审计工具,涵盖来源溯源、日期与数字对账、可交付成果合规性和议题生命周期闭环。这以可强制执行的框架契约取代了隐式的模型记忆。**动态性**:正如§4 (https://arxiv.org/html/2606.04602#S4)所记录的,智能体失败在不同模型和业务领域中以相同的程序类别反复出现。因此,自进化闭环将评分失败转化为可审查的框架差异,与律所更新检查清单而非重新培训人员的方式相似。这沿袭了工具使用和自我改进智能体的研究脉络\(Schick等,2023 (https://arxiv.org/html/2606.04602#bib.bib17);Qin等,2023 (https://arxiv.org/html/2606.04602#bib.bib55);Shinn等,2023 (https://arxiv.org/html/2606.04602#bib.bib4);Madaan等,2023 (https://arxiv.org/html/2606.04602#bib.bib5);Zhao等,2024 (https://arxiv.org/html/2606.04602#bib.bib31)\),并在此基础上增加了结构化抗泄露机制。 #### 3.1.1 模型层 模型层是一个**可插拔的能力提供者**,而非固定绑定。LAB初始结果表明,没有任何一个前沿模型在所有领域都占据主导地位:不同模型家族在不同法律子领域各有优势\(Grupe等,2026a (https://arxiv.org/html/2606.04602#bib.bib41)\),将框架绑定至单一模型会将其盲点——如时间算术薄弱、引文幻觉、业务领域覆盖不足——转化为系统级失败。一个精简的能力接口允许部署系统按业务领域、任务形态、质量或成本路由事务,同时保持其余层次的稳定;由于模型和智能体框架保持固定,Parthenon的提升效果可以被干净地衡量(§4.3 (https://arxiv.org/html/2606.04602#S4.SS3))。 #### 3.1.2 执行框架层 执行框架层提供**可观测的执行契约**:事务工作空间、来源/工具访问、经中介的读取/搜索/执行/写入/验证/编辑操作,以及轨迹捕获。LAB轨迹分析表明,任务内行为——先搜索再起草、起草后验证——与结果之间存在相关性\(Grupe等,2026a (https://arxiv.org/html/2606.04602#bib.bib41)\),因此执行框架层是模型能力转化为法律工作的场所,而不仅仅是一个包装器。Parthenon将其视为可插拔的:Codex、Claude Code、OpenCode、OpenHands或基础法律原生智能体均可占据该位置,只要它们暴露工作空间、工具、可交付成果通道和轨迹即可。法律层面的贡献对该运行时进行包装,实现**框架无关的专业化**:法律层……
相似文章
当规则学习:一种用于法律案例检索的自我进化智能体
本文介绍了一种自我进化框架,该框架利用基于LLM的智能体,为法律案例检索中的BM25迭代创建并优化查询重写规则,在无需任何参数训练的情况下,在LeCaRD-v2基准上优于非进化基线。
PolicyBank:为LLM智能体演进策略理解
PolicyBank提出了一种记忆机制,使LLM智能体能够通过迭代交互和纠正反馈自主改进对组织策略的理解,弥补导致系统性行为偏离真实需求的规范差距。该工作引入了一个系统化测试平台,并展示PolicyBank能够解决高达82%的策略差距对齐失败,显著超越现有记忆机制。
构建了一个代理工作站,让环境进行结构推理,从而减轻LLM的负担
Atlarix是一个桌面环境,它预先将代码库解析为节点/边图,使得编码代理能够通过查询来导航架构,而无需阅读原始文本,从而提高了较小本地模型的性能。
你的智能体拥有基因组:LLM驱动的自主智能体的序列级行为分析与运行时治理
本文介绍了Base Sequence Analysis框架,该框架将LLM智能体的运行时行为编码为紧凑序列,揭示了高风险模式(如'P-X-P'三元组)和验证缺失。它提出了Governor,一个运行时干预系统,使任务成功率提高了6.2%,并将令牌消耗减少了44%。
PersonalAI 2.0: 通过规划机制增强知识图谱遍历与检索,面向个性化LLM智能体
PersonalAI 2.0 引入了一个框架,通过集成外部知识图谱与动态多阶段查询处理及自适应规划机制,增强了基于LLM的系统,在多个基准测试中实现了幻觉率降低和精度提升。