标签
Harvey与Applied Compute合作训练了一个法律智能体,对智能体堆栈进行了优化,并使用来自其法律智能体基准(LAB)的奖励信号对GLM-5.1模型进行了后训练。
TW-LegalBench 是一个评估大型语言模型在台湾法律理解能力方面的基准,包含超过16,000道选择题、117道论述题和14,000个法律判决预测实例。结果显示,顶级模型超过了律师考试及格线,但未达到法官和检察官的水平,凸显了在法律文本生成可靠性方面的挑战。
研究者发布首个公开基准 LegalBench-BR,用于评估大模型在巴西法律文本分类任务上的表现。实验表明,LoRA 微调的 BERTimbau 大幅超越 GPT-4o mini 与 Claude 3.5 Haiku。