乌克兰法律文本基础模型的分词器通量与零样本性能比较研究
摘要
在乌克兰法律文本上对七个基础模型进行了基准测试,发现分词器通量差异达1.6倍,少样本提示会降低性能,成本效益分析表明NVIDIA Nemotron Super 3优于更大模型。
arXiv:2605.14890v1 公告类型:新
摘要:基础模型对乌克兰法律文本进行分词时效率差异巨大,但目前尚无针对该领域的系统比较。我们对来自乌克兰国家登记处(EDRSR)的273份验证过的法院判决,对来自五家供应商的七个模型进行了基准测试,衡量了分词器通量及三项任务的零样本性能。发现如下三点:(1) 分词器通量差异达1.6倍:相同输入下,Qwen3模型消耗的token数比Llama系列模型多60%,直接增加了API成本。(2) NVIDIA Nemotron Super 3(120B)取得了最高综合得分(83.1),超越了Mistral Large 3(总计675B,活跃参数41B)——该模型的总参数量是其5.6倍,每个token的活跃参数是其3.4倍——而API成本仅为后者的三分之一。(3) 少样本提示使性能最多降低26个百分点;分层和提示敏感性消融实验证实,这是乌克兰语演示的内在问题,而非示例选择的人为因素。对从业者而言:模型选择前应先进行分词器分析,对于形态丰富的语言,零样本是比少样本更可靠的默认设置。
查看缓存全文
缓存时间: 2026/05/15 06:24
# 基础模型在乌克兰法律文本上的分词器效能与零样本性能:一项比较研究 来源:https://arxiv.org/html/2605.14890 Volodymyr Ovcharov LEX AI Platform, legal\.org\.ua Kyiv, Ukraine (2026年5月) ###### 摘要 基础模型对乌克兰法律文本的分词效率存在显著差异,但该领域尚无系统性的比较研究。我们针对五家提供商的七个模型,基于乌克兰国家登记处(EDRSR)的273份经过验证的法院判决,测量了分词器效能(tokenizer fertility)以及在三个任务上的零样本性能。主要发现有三点:(1)分词器效能差异达1.6倍:在相同的输入文本上,Qwen3模型消耗的token比Llama系列模型多60%,直接增加了API成本。(2)NVIDIA Nemotron Super 3(120B)取得了最高综合得分(83.1),超越了Mistral Large 3(总参数675B,激活参数41B)——该模型总参数是其5.6倍,每token激活参数是其3.4倍——而API成本仅为后者的三分之一。(3)少样本提示(few-shot prompting)最多会使性能*下降*26个百分点;分层和提示敏感性消融实验证实,这是乌克兰语示例本身固有的问题,而非示例选择的人为现象。对从业者而言:模型选择前应先进行分词器分析;对于形态丰富的语言,零样本比少样本更可靠。 关键词:分词器效能,乌克兰语自然语言处理,法律文本分类,多语言大模型评估,基础模型,AWS Bedrock ## 1 引言 大型语言模型(LLM)的迅速普及在全球语言之间形成了一种隐性的等级体系。英语作为预训练语料中的主导语言,享有经过良好优化的分词器、广泛的基准测试和彻底的评估。而使用西里尔字母、形态复杂、数字足迹较小的语言——如乌克兰语——则面临双重劣势:其词汇被分割成更多的子词token,导致推理成本更高、有效上下文窗口更短,并且可能性能下降(Petrov 等人,2024(https://arxiv.org/html/2605.14890#bib.bib2);Ahia 等人,2023(https://arxiv.org/html/2605.14890#bib.bib3))。 这种差异并非纯学术问题。对于需要每天处理数万份法院判决的法律技术平台从业者而言,基础模型的选择直接影响到运营成本、延迟和准确性。一个将乌克兰文本多生成60% token的模型,在每份文档上的成本实际上高出60%——这还未考虑输出质量。 在本文中,我们介绍LEX AI测试训练项目的实验A:对七个基础模型在乌克兰法律文本上的系统评估。我们的贡献如下: 1. 我们测量了七个模型在真实乌克兰法律文档上的**分词器效能**——子词token与空格分隔词的数量之比——揭示了最高效与最低效分词器之间1.6倍的差距。 2. 我们评估了在三个法律自然语言处理任务(案件类型分类、案件结果分类和法律规范提取)上的**零样本和少样本性能**,发现模型大小并不能很好地预测乌克兰文本上的表现。 3. 我们记录了一种**违反直觉的少样本退化效应**:对于大多数测试模型,提供任务示例反而降低(而非提高)了案件结果分类的性能,其中一个模型(Qwen3 235B)下降了26.0个百分点。 4. 我们通过AWS Bedrock对所有模型进行了**成本-性能分析**,为从业者提供了可直接操作的比较。 ## 2 相关工作 ### 2.1 分词器效能与多语言公平性 不同语言之间分词不均等问题日益受到关注。Rust 等人(2021(https://arxiv.org/html/2605.14890#bib.bib1))证明,多语言模型的单语性能与其在特定语言上的预训练数据比例密切相关,并且分词器效能是这种代表性的一个有用代理指标。Petrov 等人(2024(https://arxiv.org/html/2605.14890#bib.bib2))将“语言税”形式化,即次优分词导致的额外成本,表明非拉丁字母语言每语义单元所需的token可能是英语的2–15倍。Ahia 等人(2023(https://arxiv.org/html/2605.14890#bib.bib3))将这一分析扩展到商业API,表明由于分词器设计选择的不同,处理同等内容在不同语言之间的成本可能相差一个数量级。 这些研究主要考察通用领域的文本。我们的工作则专门关注乌克兰法律语言,这种语域具有公式化表达、专业术语和大量立法规范引用等特点——所有这些都会以领域特有的方式与分词器词汇表相互作用。 ### 2.2 乌克兰语自然语言处理 自2014年以来,乌克兰语言技术发展迅速,这得益于社区的努力和政府数据的日益数字化。lang-uk项目(Kotsyba 等人,2018(https://arxiv.org/html/2605.14890#bib.bib23))建立了基础语料库和工具,包括基于乌克兰网络文本训练的分词器、词性标注器和命名实体识别模型。Syvokon 和 Nahorna(2023(https://arxiv.org/html/2605.14890#bib.bib24))引入了UA-GEC,一个语法错误纠正语料库,并证明对于形态敏感的任务,乌克兰语特定的训练数据显著优于多语言迁移。Chaplynskyi(2023(https://arxiv.org/html/2605.14890#bib.bib25))介绍了现代乌克兰语的大规模语料库UberText 2.0,并对乌克兰语上的多语言模型进行了系统评估,显示在相同架构下其性能始终不如英语——我们的工作将这一发现扩展到了法律领域。 尽管取得了这些进展,乌克兰语自然语言处理在基础模型评估中仍然代表性不足。没有已发布的基准测试系统地比较商业LLM在乌克兰语领域特定任务上的表现,而法律乌克兰语——以其独特的语域、公式化结构和立法引用惯例——在自然语言处理文献中几乎未受关注。 ### 2.3 法律自然语言处理 法律自然语言处理已从基于规则的系统发展为基于Transformer的方法。LEGAL-BERT(Chalkidis 等人,2020(https://arxiv.org/html/2605.14890#bib.bib6))证明了领域特定预训练对于英语法律文本的价值。LEXTRIME基准测试(Niklaus 等人,2023(https://arxiv.org/html/2605.14890#bib.bib7))将评估扩展到多种欧洲语言,但乌克兰语未被包含在内。大多数法律自然语言处理基准测试侧重于西欧语言和普通法管辖区;使用西里尔字母的大陆法系仍缺乏代表性。 ### 2.4 多语言大模型评估 MMLU(Hendrycks 等人,2021(https://arxiv.org/html/2605.14890#bib.bib8))及其多语言扩展已成为LLM能力的标准基准。然而,这些基准测试通常涵盖通用知识,可能无法反映领域特定性能。Lai 等人(2023(https://arxiv.org/html/2605.14890#bib.bib12))在多语言和多任务上评估了ChatGPT,发现不同语言之间存在显著性能差异。我们的工作通过提供在通常不在已发布基准测试中的语言(乌克兰语)上的领域特定(法律)评估来补充这些研究。 ## 3 方法 ### 3.1 评估数据集 我们从统一国家法院判决登记处(EDRSR,乌克兰语:Yedynyi Derzhavnyi Reiestr Sudovykh Rishen)中抽取了300份法院判决构建评估语料库。EDRSR是乌克兰所有法院判决的官方公共存储库,包含自2006年至今超过1.2亿份文档。 文档按管辖类别分层抽样,各类别数量相等: - • 民事 — 75份判决 - • 刑事 — 75份判决 - • 商事 — 75份判决 - • 行政 — 75份判决 所有文档均为真实的乌克兰语法院判决,从LEX AI平台(legal.org.ua)的生产数据库中提取。为进行分词器效能测量,文档被截断为6,000个字符,以确保在具有不同上下文窗口的模型之间进行一致的比较。对于任务评估,则使用完整的文档文本,直至每个模型的上限。 #### 3.1.1 黄金标签构建 每个任务的黄金标签按以下方式获得。 ##### 案件类型。 标签直接取自EDRSR元数据字段`justice_kind`,该字段由法院书记员在案件登记时分配。此字段具有权威性,无需额外验证。全部300份文档均带有案件类型标签。 ##### 案件结果。 标签通过基于规则的regex解析器从每份判决的判决主文中提取,使用了五个结果类别中每个类别的关键词模式(例如,“позов задовольнити”表示支持,“у задоволенні відмовити”表示驳回)。为验证解析器的准确性,我们采用三源多数投票程序:(1)regex解析器,(2)Claude Sonnet 4.5作为独立裁判对同一判决主文进行分类,以及(3)NVIDIA Nemotron Super 3作为争议案件的仲裁者。在300份文档中,有205份(68%)从regex解析器和Claude Sonnet获得相同标签。剩余的文档交给Nemotron Super 3进行仲裁:68份通过多数投票解决(至少两个来源同意一个有效的结果标签),27份被排除(要么三个来源都不一致,要么多数结果列为“无法确定”)。最终验证数据集包含273份文档(205+68),其结果标签至少由两个独立来源确认。 ##### 规范提取。 参考集通过使用匹配乌克兰引用惯例的regex模式(例如,“стаття 125”、“ст. 43”)提取立法引用来构建。在一项对30份文档的验证研究中,使用Claude Sonnet 4.5作为独立标注者发现,regex提取器的精确率达到91%,但召回率仅为55%(F1 = 0.66)——它能捕获最突出的引用,但错过了更强阅读器识别出的约45%的规范。因此,本文报告的规范提取F1分数衡量的是与**regex参考集的一致性**,而不是与每份文档中完整法律引用的集合的一致性。这意味着报告的F1分数可能**低估**了模型识别超出regex参考集之外引用时的真实提取能力。 ### 3.2 模型 我们评估了来自五家提供商的七个模型,均通过AWS Bedrock API访问。表1(https://arxiv.org/html/2605.14890#S3.T1)总结了这些模型及其架构。 表1:实验A中评估的模型。所有模型均通过AWS Bedrock访问。大小表示总参数;对于MoE模型,标注了前向传播中的激活参数。选择标准是:(1)实验时(2026年4月至5月)在AWS Bedrock上可用,(2)代表不同的分词器系列(Llama/SentencePiece、Mistral/SentencePiece、Qwen/tiktoken衍生、Nova/专有),以及(3)覆盖密集和混合专家两种架构。 ### 3.3 任务 我们定义了三个难度递增的评估任务: ##### 任务1:案件类型分类(4类)。 给定一份法院判决的完整文本,将其归类为四个管辖类别之一:民事、刑事、商事或行政。此任务测试基本的文档理解能力,因为案件类型通常可以从程序性语言和引用的立法中推断出来。 ##### 任务2:案件结果分类(5类)。 给定完整文本,将案件结果分为五类之一:支持、驳回、不予审理(zalysheno bez rozghliadu)、部分支持或结案(zakryto)。此任务需要理解判决的判决主文部分,并且由于标签分布严重不平衡而变得复杂(见第4.3节(https://arxiv.org/html/2605.14890#S4.SS3))。 ##### 任务3:法律规范提取(F1)。 给定完整文本,提取判决中引用的所有法律规范(法律+条款对)。模型必须返回结构化的JSON输出,包含每次引用的法律名称和条款编号。我们计算预测的条款编号与regex提取的参考集之间的基于集合的F1。如第3.1.1节(https://arxiv.org/html/2605.14890#S3.SS1.SSS1)所述,该参考集具有高精确率(91%)但不完全的召回率(55%),因此报告的F1衡量的是与保守基线的致性,而非真实提取性能。 ### 3.4 评估协议 所有评估均通过AWS Bedrock Converse API以两种模式进行: - • 零样本:模型仅接收任务指令和文档文本。 - • 少样本:模型接收任务指令、三个带标签的示例(如适用,每个少数类一个)和文档文本。 未进行任何微调(包括参数高效微调)。这一设计选择反映了从业者面临的实际场景:他们必须选择一个基础模型进行部署,而没有资源或数据领域适应。 对于案件类型分类,准确率在273份文档的验证子集上计算(元数据标签具有权威性;见第3.1.1节(https://arxiv.org/html/2605.14890#S3.SS1.SSS1))。对于案件结果分类,准确率在273份文档的验证子集上报告,排除了27份存在未解决标签争议的文档。对于规范提取,我们报告273份文档验证子集上的平均文档级F1分数。 所有推理调用的温度设置为0,以确保输出确定性。所有指标均在273份文档的验证子集上报告,以保持任务间的一致性。 ## 4 结果 ### 4.1 分词器效能 表2(https://arxiv.org/html/2605.14890#S4.T2)展示了所有七个模型在评估语料库中100份文档样本(每份6,000个字符)上的分词器效能测量结果。 表2:乌克兰法律文本上的分词器效能。效能 = 每个空格分隔词的平均token数。数值越低表示效率越高。模型按效能升序排列。Llama 4 Maverick 3.3 Mistral Nemotron Nova Pro Qwen 235B Qwen 32B 0 2 4 理想值 1:1 2.43 2.65 3.06 3.08 3.61 3.89 3.9 每词token数(效能) 图1:在100份乌克兰法律文档上的分词器效能(每个空格分隔词的平均token数)。数值越低表示效率越高。Llama 4 Maverick 在相同文本上产生的token比Qwen3少38%(每词2.43个token vs. 3.90个token);等价地,Qwen3比Maverick多消耗60%的token。 结果显示出明显的聚类模式。Llama系列分词器(Llama 4 Maverick和Llama 3.3)形成最高效的聚类,效能值分别为每词2.43和2.65个token。Mistral Large 3和Nemotron Super 3处于中间位置,约为每词3.06–3.08个token。Qwen分词器在乌克兰文本上的效率明显较低,两个Qwen3变体均约为每词3.90个token——比Llama 4 Maverick高60.3%。 这种效率差距有直接的成本影响。对于一份典型的1,000词的乌克兰法院判决,Llama 4分词器会产生约2,434个token,而Qwen3分词器会产生约3,900个token。这意味着对于同一个推理请求,Qwen3消耗的token数要多60%。在AWS Bedrock的定价模式下,假设输入token成本相近,Qwen3模型的推理成本将比Llama 4 Maverick高出约60%,而输出质量可能相当或更差。
相似文章
跨25种欧洲语言的Tokenizer税:领域不变性、跨语言少样本效应与乌克兰语惩罚
本文在平行文本上测量了25种欧洲语言的分词器标记率,发现从英语到希腊语/马耳他语的差距达到2.5倍,其中乌克兰语承受15-18%的惩罚。研究证明了标记率排名的领域不变性,分析了子词碎片化,并评估了跨语言少样本效应。
18 款 LLM OCR 实测(7k+ 次调用):便宜/旧模型常吊打旗舰,完整数据集+框架已开源 [R]
对 18 款大模型在 OCR 任务上的全面评测(7k+ 次调用)发现,便宜或旧模型往往能以极低成本达到与旗舰模型相当的准确率,数据集与评测框架已完全开源。
@ctnzr: 我们更进一步:Nemotron 3 Super 拥有120B参数,在NVFP4精度下基于25T tokens进行了预训练。Nemotron 3 Ultra 大约为500B参数,……
NVIDIA 宣布推出 Nemotron 3 Super(120B)和 Nemotron 3 Ultra(约500B)模型,这些模型在 NVFP4 精度下基于25T tokens进行了预训练,强调加速计算和效率提升。
UA-Legal-Bench:评估大语言模型在乌克兰法律推理能力的基准
介绍了UA-Legal-Bench,这是一个基于统一国家法院判决登记册构建的、用于评估大语言模型在乌克兰法律推理能力的五项任务基准。评估了11个LLM,揭示了任务相关的少样本效应以及在不平衡法律任务中准确率的误导性。
@aaron_epstein: 新发布的模型在OCR、视觉和STT任务上击败了sonnet 4.6、gemini 3 flash和gpt 5.4 mini @interfaze_ai
来自interfaze_ai的新AI模型声称在OCR、视觉和语音转文字任务上超越领先模型(sonnet 4.6、gemini 3 flash、gpt 5.4 mini)。