Toten：基于知识的本体化标记化——巴西葡萄牙语中物理量和技术符号的标记化

arXiv cs.AI 2026/06/20 04:00 论文

tokenization ontology nlp brazilian-portuguese physical-quantities knowledge-based intrinsic-evaluation

摘要

TOTEN是一个基于知识的本体化标记化框架，用基于工程实体形式本体的声明式分类取代统计标记化，实现了巴西葡萄牙语中物理量和技术符号的高本体原子性和数值重建。

arXiv:2606.19626v1 公告类型：新摘要：字节对编码标记化在词汇压缩方面统计高效，但在语义上对结构化技术实体视而不见，将物理量、数字、单位及符号表达式切分为词汇上任意组合的子词。我们提出TOTEN，一个基于知识的本体化标记化框架，用基于工程实体形式本体（OEE）的声明式分类取代统计推导。我们将TOTEN形式化为三元组 <O, classify, {inst_tau}>：本体收集类型、结构原则、组成关系和可保持不变量；分类函数将原始文本映射为类型化区域；实例化器族产生自描述的结构化表示。鲁棒性源于与三个外部或acles的确定性耦合：Pint（维度）、Unicode字符数据库（排版）和RSLP（葡萄牙语形态）。内在评估涵盖四个可通过构建验证的属性——本体原子性、维度等价性、排版鲁棒性和数值重建——基于内部物理验证基准（EngQuant，N=800）和四个巴西葡萄牙语外部语料库（N=1771合格案例）。我们还报告检测召回率，区分覆盖率和条件原子性。针对八种最新基线方法，TOTEN在所有对比中实现单位本体原子性，在外部语料库上数值重建为0.775-0.904，而最佳基线（Quantulum3）为0.627-0.703；在EngQuant上为0.780对比0.340。差异具有统计显著性（McNemar检验，Holm校正）。内部与外部排名间的斯皮尔曼相关性证实了控制基准的同期效度。维度等价性显示与Pint统计对等，Pint是系统从中继承维度权威性的外部oracle。

查看原文

查看缓存全文

缓存时间: 2026/06/20 14:31

# TOTEN：基于知识的巴西葡萄牙语物理量和技术符号的本体论分词  
来源：https://arxiv.org/html/2606.19626 [![[未配图图像]](https://arxiv.org/html/2606.19626v1/x1.png)Antonio de Sousa Leitão Filho](https://orcid.org/0009-0002-1705-3611)1,2,∗ [![[未配图图像]](https://arxiv.org/html/2606.19626v1/x2.png)Allan Kardec Duailibe Barros Filho](https://orcid.org/0000-0002-1654-0955)2 [![[未配图图像]](https://arxiv.org/html/2606.19626v1/x3.png)Fabrício Saul Lima](https://orcid.org/0009-0005-1837-8751)1,2 [![[未配图图像]](https://arxiv.org/html/2606.19626v1/x4.png)Selby Mykael Lima dos Santos](https://orcid.org/0009-0006-6627-6503)1,2 [![[未配图图像]](https://arxiv.org/html/2606.19626v1/x5.png)Rejani Bandeira Vieira Sousa](https://orcid.org/0009-0000-7888-7324)1,3  

1Aia Context, 圣路易斯, 巴西  
2马拉尼昂联邦大学, 圣路易斯, 马拉尼昂, 巴西  
3圣保罗大学, 圣保罗, 巴西  
∗通讯作者：[email protected] (mailto:[email protected])  

###### 摘要  

字节对编码分词在词汇压缩方面具有统计有效性，但在语义上对结构化技术实体视而不见，将物理量、数字、单位和符号表达式分割为词汇上任意子词。我们提出TOTEN，一个基于知识的本体论分词框架，用基于工程实体形式本体论（OEE）的声明式分类取代统计推导。我们将TOTEN形式化为三元组⟨O, classify, {inst_τ}⟩：本体论收集类型、结构原则、组成关系和可保持不变量；分类函数将原始文本映射为带类型区域；实例化器的索引族产生自描述的结构化表示。鲁棒性源于与三个外部或acles的确定性耦合——Pint（维度）、Unicode字符数据库（排版）和RSLP（葡萄牙语形态学）。内在评估涵盖四个通过构造可验证的属性——本体论原子性、维度等价性、排版鲁棒性和数值重建——基于内部生成并经过物理验证的基准（EngQuant，N=800）以及四个巴西葡萄牙语外部语料库（N=1,771个可进行数值重建的案例）。我们额外报告检测召回率，区分覆盖范围与条件原子性。与八个代表性最先进系统相比，TOTEN在所有对比中实现了单位本体论原子性，在外部语料库上数值重建达到0.775至0.904，而最好基线（Quantulum3）为0.627–0.703；在内部基准上为0.780对0.340。原子性和重建的差异具有统计学显著性（带Holm校正的McNemar检验）。内部与外部语料库排名之间的斯皮尔曼秩相关证实了对照基准的同时效度。维度等价性与Pint（系统继承维度权威的oracle）呈现统计对等性。

*关键词*：本体论分词·基于知识的系统·本体论工程·知识表示·葡萄牙语NLP·内在评估  

## 1 引言  

科学文本中技术实体的符号表示仍是当代语言模型中未解决的问题。诸如字节对编码[1]、WordPiece和SentencePiece[2]等统计分词算法源自以英语为主的通用语料库，其词汇的粒度优化目标是统计压缩而非语义保持。当应用于巴西葡萄牙语的技术文本时，这些分词器将语义上原子的实体——物理量、区域特定数字、复合维度单位、符号表达式——分割成子词序列，其重组完全依赖于下游模型的后验推断。类似案例如规范性标识符（NBR、ABNT）和法律条款及段落的层级引用也存在相同结构问题；但其在标注开放语料上的评估留待本工作后续扩展。  

近期研究实证记录了这种分割的后果。Singh和Strouse[3]证明，从右到左的数字分组显著提升了GPT-3.5的算术准确性，表明输入中保留的数字结构与更好的下游算术性能相关，且独立于参数规模。Yang等人[4]编目了数值推理中的系统性空白，其根源归因于不充分的分词而非训练。这些发现激励设计一种保留数字和单位语义结构的输入表示；对消费模型下游效应的直接验证不在本研究范围内，留作未来工作。  

针对英语的领域特定量化提取文献[5,6]提供了部分解决方案，但未能充分建模巴西葡萄牙语的技术词汇；诸如Pint[7]和udunits-2[8]等维度库在已分离的单位字符串上操作，不执行文本识别；通用实体识别模型[9]在人物、地点、组织等类别上训练，忽略了技术科学词汇。  

本研究提出一种基于本体论工程的替代方案。我们不通过统计方式推导词汇，而是显式声明一个工程实体形式本体论（OEE），包括基本类型、结构原则、组成关系和可保持不变量。在此本体论之上，我们定义TOTEN¹¹TOTEN——类型化本体论分词，一个基于知识的分词框架，运行于三个功能层并与三个外部oracles耦合。本工作的科学贡献为：(C1) 将本体论分词形式化为三元组⟨O, classify, {inst_τ}⟩，实现无关且可通过可验证属性进行评估，将其与统计子词分词截然区分。(C2) 一个工程实体形式本体论（OEE），其基本类型由内在属性定义，八个结构原则以公理形式表达（附录A），并声明组成关系，遵循“开放扩展、封闭修改”原则。(C3) 一种计算廉价的内在评估，基于四个通过构造可验证的属性——报告除检测（召回率）之外，还有四个属性：原子性、维度等价性、排版鲁棒性和数值重建——在五个语料库（一个物理验证的内部语料库和四个外部PT-BR语料库）上重复实验，并验证oracle消融和跨语料库排名一致性，证明与八个最先进系统相比在原子性和数值重建上具有统计显著优势。  

第2节建立本体论工程和分词的理论基础。第3节形式化OEE。第4节介绍TOTEN的架构。第5节描述输出语言。第6节说明实验协议。第7节展示结果。第8节讨论启示。第9节总结。  

## 2 理论基础  

### 2.1 本体论工程  

形式本体论，按照Gruber[10]确立的意义，是对领域共享概念化的显式规范。Studer等人[11]将本体论工程描述为一门产生知识表示的可重用形式工件的学科，区分轻量本体（约束少的分类）和重量本体（公理性的，词汇受逻辑公理严格约束）。Guarino[12]引入了本体论承诺标准，作为理论对它所描述的现实结构的义务。我们采用本体的经典形式化，将其表示为四元组O=⟨T, P, R, I⟩，(1) 其中T是基本类型的有限集合，P是结构原则（公理）的集合，R⊆T×T是类型间的组成关系，I是任何有效实例表示必须保持的不变量集合。该公式与[11]兼容，并支持增量扩展：给定版本n的On，版本n+1满足Tn⊆Tn+1且Pn⊆Pn+1，不删除任何类型或先前原则。  

### 2.2 分词：形式定义  

设Σ为有限字母表，Σ*为Σ上所有有限字符串的集合。分词是一个函数 tok: Σ* → V*，(2) 其中V是词汇表。两个家族截然不同：统计分词，其中V通过压缩过程（BPE、WordPiece、SentencePiece）从语料库C中诱导产生；以及本体论分词，其中V是在本体O上定义的语言M，函数分解为两个组件：tok = ext ∘ classify，其中 classify: Σ* → P(R) 识别带类型区域，ext: P(R) → M* 产生结构化表示。这一区分至关重要：统计分词对领域在语义上盲目，因为词汇来自分布属性；本体论分词在语义上承诺于领域的概念化，明确继承自本体O。  

### 2.3 相关工作  

#### 2.3.1 子词分词及其语义影响  

统计分词器的主导家族——BPE[1]、WordPiece[13]和SentencePiece[2]——共享一个方法论假设：最优词汇表在压缩准则下从语料库的分布属性中涌现。近期研究在三个互补方面质疑了这一假设。Bostrom和Durrett[14]表明，unigram LM分割产生的单元比BPE更符合形态，表明贪婪压缩准则分割了合法语素。Rust等人[15]在九种类型多样语言中证明，专用的单语分词器对单语性能的贡献与预训练数据量相当，将分词效应与规模隔离开来。Schmidt等人[16]引入PathPiece分词器，并实证确定更少的token并不意味着更好的下游性能，消除了压缩与质量之间的非正式等价关系。跨语言公平性问题由Petrov等人[17]提出，他们记录了信息等价内容在不同语言间分词长度的数量级差异，对成本、延迟和有效上下文窗口产生影响。Wegmann等人[18]将论证扩展到语言内变异，表明预分词决策与正字法和方言变体交互；在形态丰富的语言中，Toraman等人[19]证明分词器选择对下游性能的影响与规模增加相当，对技术PT-BR的分词有直接影响。Land和Bartolo[20]进一步编目了故障token——词汇表中存在但在训练中几乎不出现的token——作为分词器构建与模型训练脱节引起的系统故障类别。对于TOTEN，这一证据体是一致的：统计词汇表推导引入了下游模型无法事后纠正的偏差、分割和伪影。  

#### 2.3.2 语言模型中的数值表示与推理  

NLP中关于数字的特定文献，由Thawani等人[21]在七个子任务中综合，将数值识别定性为通用模型中的弱且不稳定的涌现能力。Spithourakis和Riedel[22]表明，将数词视为不同类别的层次架构在数值子集上将困惑度降低两到四个数量级。Wallace等人[23]通过探查建立，标准嵌入仅能捕捉最多三位整数的数量级，对更大尺度则崩溃。Geva等人[24]提出通过在预训练期间生成合成算术数据注入数值能力，这是一种与Singh和Strouse[3]探索的输入重构互补的方法。Yang等人[4]记录的局限性强化了前沿模型中问题依然存在。TOTEN从一个独特角度对此讨论做出贡献：它不是通过训练注入数值能力或重新设计架构，而是在输入表示上操作，保留数值结构（符号、尾数、指数、区域设置、按[3]的从右到左数字分组）作为本体论类型化信息，在任何消费模型处理之前。  

结构化数量提取有一条并行轨迹。Roy等人[25]形式化了数量蕴涵和自然语言中数量推理的问题；Saha等人[26]提出了BONIE，开放信息提取中的第一个数值提取器，能推断隐式关系。

Toten：基于知识的本体化标记化——巴西葡萄牙语中物理量和技术符号的标记化

相似文章

TONIC：面向任务无线系统的以令牌为中心的语义通信

三元后缀分词方案在数值推理中的应用

用Toki Pona检验Word2Vec的极限

本地基准测试：在Qwen上评估Python风格与自然语言CoT的令牌效率

X-Token: 投影引导的跨分词器知识蒸馏

提交意见反馈