Harvey 发布法律智能体基准测试(Legal Agent Benchmark,阅读约 12 分钟)
摘要
Harvey 发布法律智能体基准测试(LAB),这是一个开源工具,旨在评估 AI 智能体在长周期法律任务中的表现,帮助律所衡量投资回报率并追踪进展。
Harvey 的法律智能体基准测试(LAB)是一个开源工具,用于评估 AI 智能体在法律任务中的表现。
查看缓存全文
缓存时间: 2026/05/08 09:29
# Harvey 发布法律智能体基准测试
来源:https://www.harvey.ai/blog/introducing-harveys-legal-agent-benchmark
## 研究合作伙伴
我们正式推出 Harvey 法律智能体基准测试(Legal Agent Benchmark,简称 LAB),这是一个面向法律智能体的开源基准测试。LAB 旨在评估和提升智能体在支持律师实际工作方面的能力。每项任务包含指令、包含相关材料客户事项,以及要求智能体产出可审查工作成果的需求。这种结构设计旨在模拟大型律师事务所中工作的分配、执行和审查方式。
LAB 的目标是清晰呈现智能体如何在现实世界中支持法律工作。通过阐明智能体在哪些任务上可以全部完成、部分完成或无法完成,LAB 帮助律师事务所衡量 AI 投资的投资回报率,以及这些投资可以在哪些方面增强团队工作。
LAB 的首个版本涵盖 24 个法律执业领域中的 1200 多项智能体任务,并由超过 75,000 条专家编写的评分标准进行评估。我们开源 LAB,旨在为模型提供商、智能体开发者、研究人员和律师事务所提供一种共享的方式来衡量长期法律智能体的进展。
我们有意在发布 LAB 时不设排行榜,因为我们预计数据集会随时间演变,希望与社区合作确保结果在传达智能体性能方面清晰直观。未来几周,我们将与研究合作伙伴合作获取 LAB 的基线结果并发布排行榜,以提供当前法律智能体状态的视角。此外,我们还将发布标准化提交标准,使人们能够识别改进并跟踪基准测试的进展,因为基准测试本身会随着新任务、执业领域和知识工作学科的加入而不断演进。
您可以在以下链接找到 LAB 的开源版本:https://github.com/harveyai/harvey-labs
## 我们为何构建智能体基准测试
在 Harvey,我们过去一年一直在为法律领域构建智能体。这促使我们深入思考如何衡量它们在真实法律任务中的表现。
迄今为止,还没有一个基准测试能够展示智能体在长期法律工作中的进展。现有的评估,包括 LegalBench(https://hazyresearch.stanford.edu/legalbench/)、CUAD(https://www.atticusprojectai.org/cuad/)、LEXam(https://lexam-benchmark.github.io/),以及我们之前在 BigLaw Bench(https://www.harvey.ai/blog/introducing-biglaw-bench)上的工作,都侧重于短期推理评估:阅读合同、回答问题、比较案例或分析论点。
在编程领域,智能体基准测试已成为智能体能力的重要领先指标。例如,智能体在 SWE-Bench Pro(https://arxiv.org/abs/2509.16941)、SWE-Bench Verified(https://www.swebench.com/verified.html)和 Terminal-Bench 2.0(https://www.tbench.ai/benchmarks/terminal-bench-2)上的分数反映出,在我们工程团队实际感受到转变的同一时期出现了阶梯式提升;Karpathy 的观察将这一时刻凝练为:编程智能体"在 12 月之前基本无法使用,自那以后基本可用"(https://x.com/karpathy/status/2026731645169185220?s=20)。
这种模式现在正在向编程以外的领域延伸。GDPval(https://openai.com/index/gdpval/)、OSWorld-Verified(https://xlang.ai/blog/osworld-verified)、BrowseComp(https://openai.com/index/browsecomp/)、MCP Atlas(https://github.com/scaleapi/mcp-atlas)、FinanceAgent(https://www.vals.ai/benchmarks/finance_agent)、Humanity's Last Exam(https://agi.safe.ai/)和 APEX-Agents(https://www.mercor.com/apex/apex-agents-leaderboard/)等基准测试已帮助人们在现实世界知识工作、计算机使用、网络研究、工具使用、财务分析、前沿推理和专业服务任务中清晰了解进展。
LAB 旨在为寻求部署和最大化 AI 系统投资回报率的律师事务所提供同样清晰的指标。了解智能体在各执业领域的能力,使事务所能够识别部署机会以加速客户价值,同时让律师转向高杠杆的委派和审查模式。识别智能体困难的领域也有助于事务所了解哪些任务执行应保持高度人工参与。综合这些信息,律师事务所能够做出既负责任、安全,又最大限度有效的客户部署决策。
LAB 针对领先的开源和闭源模型的初步结果将在未来几周发布,此前我们会收集研究合作伙伴的额外意见和社区反馈。这些讨论将确保基准测试分数以清晰、公正、透明的方式代表智能体性能。此次发布还将提供在标准化条件下提交基准测试运行的指导,使第三方能够沟通智能体栈任何部分的改进,并跟踪分数如何随基准测试因新任务和其他扩展而演变。
强大的公共基准测试不仅能衡量进展,还能加速进展。我们已看到 LAB 被内部团队用于产品评估,也被更大的研究社区用于探索开源权重后训练、自动研究、记忆、特定领域法律技能,以及长期智能体工作的优化。我们期待 LAB 能够为法律智能体的进展创建共享基础,并帮助弥合 AI 研究与法律社区之间的鸿沟。
LAB 是一个以客户事项为中心的基准测试。它旨在模拟律师事务所中法律工作的实际交付方式,我们将智能体执行和评估过程的每个步骤映射到其法律对应环节:
- **指令:** 智能体的指令以合伙人向助理分配工作的请求形式编写。指令以肯定性陈述说明所需内容,而非详细解释预期输出或风格。
- **环境:** 智能体的环境是一个**客户事项**。客户事项定义了律师事务所代表客户完成工作所需的封闭式文档和其他材料集合。这些文档可以包括事项文件、事务所模板、电子邮件通信,以及智能体必须发现和筛选的其他信息,以完成指令。
- **输出:** 要成功完成任务,智能体必须产出**可审查的法律工作成果**。
- **验证:** 智能体的工作由**专家评分标准**进行评分,这些标准概述了正确答案在格式、事实和分析方面必须包含的内容。这些标准模拟了工作成果在提交给合伙人和客户时所接受的审查。
这种以客户事项为中心的结构是我们定义 LAB 中每项任务的基础。每项任务的设计不仅在于测试智能体能否回答法律问题,还在于测试其能否应对开放式任务。
### 定义任务
LAB 中的每项任务旨在测试智能体应对现实世界工作的能力。指令很短,平均仅五十个词。环境混合了关键和辅助文件,并将问题嵌入多个文档中。智能体必须从宽松的指令出发,在事项文件中构建上下文,并利用该上下文产出相关交付物。
例如,一项公司并购任务要求智能体分析与(虚构的)Crestview Software Solutions 收购相关的控制权变更条款,该交易为 4.58 亿美元、100% 股权交易。
作为输入,智能体可以访问包含交易背景的文件系统、虚拟数据室,以及来自合伙人的简短指令,要求智能体审查数据室、识别控制权变更条款、评估交易风险、建议后续步骤,并为交易团队和董事会准备一份可供审查的备忘录草稿。数据室包含相关文档的混合——包括八份重大合同和其他相邻材料(例如 10-K、递延薪酬计划等),这些材料可能与分析相关也可能不相关。要完成任务,智能体必须确定哪些文件重要、在上下文中阅读它们,并综合整个事项中的相关条款。
所需输出是一份可供交易团队审查的备忘录。除其他内容外,它必须包括执行摘要及风险映射、相关条款的逐份合同分析、严重程度评级,以及针对每项识别风险的缓解建议。
### 评估任务
当智能体完成任务时,最终输出将根据旨在反映合伙人或客户详细审查的专家评分标准进行评分。每项评分标准将这些利益相关者在提交交付物中会仔细审查的内容分解为原子化的、二元通过/未通过标准:事实、结论、引用、严重程度评级、建议、截止日期、金额和格式选择。每项标准都与特定交付文件相关联。这也使评分标准在不同运行中保持一致。相同的标准可以由 LLM 评判员应用,用于比较模型和优化方案,并作为每项标准的奖励信号反馈到智能体训练循环中。
对于控制权变更任务,评分标准包含 57 项标准,涵盖嵌入事项中的九个法律问题。每个问题被分解为四到九项标准,涵盖基础事实、严重程度评级、财务敞口和建议行动。
评分标准涵盖从简单检查到复杂检查的多种复杂度,从报告是否识别出 Pinnacle 许可在控制权变更后将独占性转为非独占性这样的直接检查,到报告是否计算了总财务敞口、构建了统一的同意和豁免时间表、以及协调了各协议中不一致的控制权变更定义等更详细工作成果的检查。
重要的是,只有当每项标准都通过时,任务才被视为完成,我们称之为**全通过评分(all-pass grading)**。识别出十个风险中八个风险的交易团队报告不是 80% 有用;它在实质上是不完整的。遗漏的问题可能改变交易经济、要求在交割前重新进行分析,或在交易完成后暴露为问题。
> "全通过评分反映了高风险法律工作在实践中的审查方式——发现大部分问题不会获得部分分数。"
### 执业领域分布
控制权变更任务是 LAB 中 1250 项任务之一,涵盖 24 个法律执业领域。大型事务所有数百个不同的执业领域,因此这个初始版本侧重于代表性的一组交易性、咨询性、监管性和诉讼性工作,这些是助理经常遇到的。
为扩展基准测试,我们从每个执业领域执业律师处理的实际客户事项开始。然后我们将这些事项分解为助理通常被委派完成的离散任务。本次发布的 24 个执业领域并不全面,这些领域内的许多任务类型也尚未覆盖。未来版本将在现有领域内增加更多任务,扩展到更多律师事务所执业领域,并超越律师事务所覆盖内部法律工作和相邻知识工作领域,如资产管理和银行业务。
## 与社区共建
LAB 是我们首个完全开源的基准测试。在我们继续扩展和开发 LAB 的过程中,我们希望与以下群体合作:
1. **律师:** 通过审查现有任务、审计评分标准,以及贡献反映其实际工作的新任务系列来验证和改进基准测试。
2. **律师事务所:** 帮助我们更好地捕捉定义其工作的流程、交付物和审查标准,并确保基准测试以有意义且可操作的方式帮助他们了解智能体现状。
3. **法律技术专家:** 为法律工作流程构建特定领域的技能、工具和智能体。
4. **智能体研究人员:** 改进长期工作的规划、检索、工具使用、记忆和架构设计。
5. **AI 实验室:** 致力于后训练模型,使其更好地产出可靠的法律工作成果。
> "我们的目标不仅是提供一种透明的方式来衡量法律智能体的性能和进展,还要加速法律和 AI 社区内的研究进展。"
我们还要感谢以下研究小组,他们已为基准测试及其启用的研究方向做出贡献:
开源发布旨在扩展这项工作。我们希望模型提供商、初创公司、研究人员、法律 AI 公司和律师事务所运行基准测试、审计评分标准、改进架构、贡献新任务系列,并帮助定义法律智能体评估下一步应衡量什么。
## 未来展望
LAB 的首个版本解决了评估法律智能体的几个重要挑战,但这只是开始。随着时间推移,我们计划在三个主要方面扩展 LAB:
1. 扩展覆盖范围至所有 BigLaw 执业领域,以及这些领域内的任务覆盖。
2. 扩展覆盖范围超越律师事务所,覆盖其他专业服务工作流程,从内部法律顾问到非法律从业者,如资产经理、银行家和税务专业人士。
3. 改进任务覆盖和样本多样性,重点构建不仅可用于评估,还可通过微调和训练改进模型的数据集。
我们的总体目标是帮助法律和 AI 社区了解智能体今天在哪些方面有用,以及如何随时间改进它们。这需要的不只是 Harvey 的投入。我们需要研究人员、律师和在真实客户工作中使用智能体的事务所帮助测试基准测试、对任务进行压力测试,并告诉我们信号最清晰或缺失的地方。对于律师事务所而言,LAB 旨在帮助理解工作流程的哪些部分可以委派给智能体、律师审查在哪些方面最重要,以及哪些能力仍需改进。
未来几周,我们将分享在多种模型和智能体上进行基准测试的初步结果。如果您对 LAB 有反馈、希望使用该数据集进行研究,或有兴趣评估特定任务或结果,请联系博客署名中列出的任何 Harvey 研究团队成员。
### 致谢
这项工作离不开 Harvey 内部团队和外部合作伙伴的大力支持。Spencer Poff 担任开源部分 GitHub 仓库的技术负责人,主导了早期架构设计、智能体沙箱化和基准测试开源的大量工作。Julio Pereyra 领导任务设计,开发了新颖的文档和场景生成流程,帮助我们扩展任务创建。特别感谢安全团队的 Nick Gonella;AI 平台团队的 Chris Paradis、Gary Lam、Bronwyn Austin 和 Jinfeng Zhuang;助理团队的 Phil Cerles 和 Philip Lan;应用法律研究的 Laura Toulme、Blake Chizen 和 Nick Gillies;品牌团队的 Shawn Farsai;以及持续提供基准测试反馈的 Nico Belmonte、Tara Waters、Ryan Samii、Joe Marando、Farrah Pepper 和 Joe Cohen。我们还要感谢 Dan Biderman、Neel Guha、Velen Wu、Reinhard Heckel 对本帖提供反馈。
相似文章
@gabepereyra: Harvey与@appliedcompute合作训练法律智能体。我们优化了智能体堆栈的每个部分,包括……
Harvey与Applied Compute合作训练了一个法律智能体,对智能体堆栈进行了优化,并使用来自其法律智能体基准(LAB)的奖励信号对GLM-5.1模型进行了后训练。
为法律专业人士定制模型
法律专业人士生成式AI平台Harvey与OpenAI合作,创建了一个定制训练的案例法模型,该模型减少了幻觉现象,改善了文件起草和合同分析等复杂法律任务的推理能力。该定制模型在10亿个美国案例法令牌上进行了训练,在律师偏好度测试中超过标准基础模型97%。
@FinanceYF5: Harvey 的启示是,AI 时代公司卖的不再是软件,而是智能 1/ 不是法律软件 Harvey CEO Winston Weinberg 说:“每家公司最终都会销售智能。” Harvey 表面是法律 AI,真正卖的是律师的判断、检索、审…
Harvey CEO Winston Weinberg 提出,AI 时代公司不再销售软件,而是销售智能,以 Harvey 法律 AI 为例,说明其真正卖的是律师的判断和检索能力。
认识我的AI政务与法律代理:研究、分析、起草与执行
作者介绍了GLAW,这是一个用于法律和政府任务的自主多代理AI系统,涉及研究、分析、起草和执行,并邀请讨论其风险与保障措施。
我为一家中型律所构建了一个多智能体 AI 系统——以下是真正有效(和无效)的做法
作者分享了在律所部署基于 Claude 和 LangGraph 的多智能体 AI 系统时的经验教训,重点介绍了基于置信度评分的任务交接机制的成功应用,以及防止幻觉产生所需的人机协作监管的重要性。