一个跨领域的热带物种数据集,包含中文俗名和CITES来源链接

arXiv cs.CL 论文

摘要

本预印本描述了一个包含410,499个热带物种的跨领域数据集,这些物种带有中文俗名和CITES来源链接,整合了多个生物多样性基础设施,以支持应用贸易和养殖场景。

arXiv:2606.03156v1 公告类型:新 摘要:我们描述了一个版本化的跨领域数据集,包含410,499个活跃的热带物种(工作快照日期为2026-04-20),涵盖三个应用子领域——tropical_plants、tropical_aquatic和tropical_pets——它们共享商业和监管生命周期,但分布在按界组织的生物多样性基础设施中。该资源整合了来自GBIF、Plants of the World Online、iNaturalist、NCBI Taxonomy、Catalogue of Life和Encyclopedia of Life的分类标识符,并添加了三个原始层:一个跨领域本体,根据贸易和养殖环境重新划分分类群;一个中文俗名层,在排除未经验证的机器生成提案的类型学下,提供明确的每个名称的来源;以及一个CITES来源链接层,将每个分类群连接到其Species+条目。中文俗名覆盖率——即拥有与科学双名法不同的CJK中文名称的分类群比例——达到99.50%(408,456/410,499;全群体计数)。覆盖率表征完整性,而非名称翻译准确性;后者受限于四级来源类型学,并且是此处报告的初步内部审查的主题,其中盲测外部审计被确定为主要未解决问题。上游内容仅通过稳定标识符引用原始贡献层,支持CC-BY 4.0重用。该数据集存放在Zenodo上(10.5281/zenodo.20377811)。本预印本是数据集当前状态的规范v1.0描述;未来计划提交Data Descriptor,但取决于“局限性”部分列出的验证和发布工程项。
查看原文
查看缓存全文

缓存时间: 2026/06/03 09:37

# 摘要 来源:https://arxiv.org/html/2606.03156 一个具有中文俗名与CITES来源链接的跨领域热带物种数据集 Jeff Wang NEXLY LLC,美国 通讯:[email protected] (https://arxiv.org/html/2606.03156v1/mailto:[email protected]) ORCID:0009-0001-2905-8439 (https://orcid.org/0009-0001-2905-8439) 我们描述了一个包含410,499个活跃热带物种(工作快照日期:2026-04-20)的版本化管理跨领域数据集,涵盖三个应用子领域——tropical_plants(热带植物)、tropical_aquatic(热带水生生物)和tropical_pets(热带宠物)——这些子领域共享商业和监管生命周期,但分布在按界组织的生物多样性基础设施中。该资源整合了来自GBIF、Plants of the World Online、iNaturalist、NCBI Taxonomy、Catalogue of Life和Encyclopedia of Life的分类学标识符,并新增了三个原创层:一个跨领域本体,按贸易和饲养场景重新划分类群;一个中文俗名层,附带明确的每条名称来源(采用排除未经验证的机器生成提议的类型体系);以及一个CITES来源链接层,将每个分类单元与其Species+条目相连。中文俗名*覆盖率*——即拥有中文汉语名称(区别于科学双名法)的分类单元比例——达到99.50%(410,499个物种中的408,456个;全种群计数)。覆盖率表征完整性,而非名称翻译准确性;后者受限于四级来源类型体系,此处报告了一项初步内部审查结果,而盲法外部审计被认为是主要待办事项。上游内容仅通过稳定标识符在原创贡献层中引用,支持CC-BY 4.0重用。数据集存放在Zenodo(10.5281/zenodo.20377811)。本预印本为数据集当前状态的规范v1.0描述;未来计划提交Data Descriptor,但取决于§局限性中列出的验证和发布工程事项。

## 关键词 生物多样性信息学;热带物种;中文俗名;CITES来源链接;达尔文核心;跨领域汇编

## 背景与总结

物种的系统记录建立在双名法命名系统之上,如今通过少数几个大型公共基础设施实现。全球生物多样性信息机构(GBIF)作为全球开放生物多样性数据基础设施,汇集了发生记录和分类学骨干[1]。Plants of the World Online(POWO)提供经过策划的植物命名、分布、用途和保护状况[2]。iNaturalist贡献带有分类学标识符的社区观察图谱[3]。NCBI Taxonomy维护与公共序列数据库相关联的策划分类[4]。Catalogue of Life(CoL)将源清单整合为单一的全球物种列表[5, 18]。Encyclopedia of Life(EOL)在这些底层基础上聚合了法律可共享的生物多样性知识[7]。这些基础设施共同构成了描述性生物学及大多数下游生物多样性应用的基础。此处描述的资源并不替代其中任何一个;它建基于它们的标识符图谱之上,并添加了底层基础设施按设计未覆盖的一类应用工作所需的注释和汇编层。

本文中使用的术语*tropical*(热带)是一个应用性的贸易和饲养范围,而非严格的生物地理边界。纳入标准锚定在通过热带物种供应链和爱好饲养社区的商业流动,而非纬度或生物群落;科级和目级的纳入规则在方法§1中列举,完整子类别列表见补充材料§S1。现有底层基础设施的三个结构性特征促使了该资源的创建。

第一,分类学基础设施按界和进化枝边界组织,而应用工作——国际贸易合规、海关文件、供应链监控、爱好商业、饲养知识——跨越这些边界。植物、动物和微生物记录分属不同的工作流程,具有不同的编辑文化和社区标准。一个贸易商、海关官员或爱好者问“这个分类单元是否受进口管制、当地叫什么、饲养要求是什么?”——这个问题是《濒危野生动植物种国际贸易公约》[6]已经作为一个单一监管框架处理的:一个单一的附录系统涵盖兰科、河魟科和陆龟科(涉及两个界),而国际观赏和宠物贸易也经常跨越同样的界边界[20]。没有任何单一的国际基础设施能提供与该框架对齐的跨领域本体。POWO覆盖植物但不覆盖水生动物或外来宠物[2];NCBI Taxonomy提供跨界的分类但针对序列资源而非贸易类别[4];GBIF和Catalogue of Life不考虑界但未按应用领域划分类群[1, 5]。

第二,国际资源中中文俗名的覆盖率稀疏且类型不均衡。稳定的拉丁双名法支撑着全球基础设施,但中国日常的贸易、海关申报、监管执法和公共沟通使用中文俗名[17, 18]。GBIF、iNaturalist和Catalogue of Life中存在俗名字段[1, 3, 5],但许多热带类群的中文条目缺失,或者未经验证地机器翻译,或者缺少能区分权威来源[11]与社区贡献或自动推导的逐条记录来源元数据。针对上游源的中文俗名覆盖率进行的分母匹配比较(以本资源410,499个物种为分母)在技术验证覆盖率表2中报告,并在数量级层面证实了“稀疏且类型不均衡”的描述(该表报告了估计值,明确带有±2倍的不确定性,取决于限制性事项6中列出的离线批量导出连接)。中文俗名与科学名称之间的标准化跨映射是一个活跃的研究领域,催生了诸如用于植物名称标准化的U.Taxonstand[13]等工具,以及跨越生物多样性标识符图谱的众包协调计划[12]。这一限制对中文自然语言处理任务(贸易文档中的命名实体识别、双语实体链接、监管文本挖掘中的查询扩展)尤为关键,因为这些任务需要每个条目的输入质量信号来构建训练和评估集。

第三,上游来源的许可证异质性阻止了衍生聚合结果的单许可证再分发。上游内容以CC0、CC-BY、CC-BY-NC和自定义条款的混合形式发布,条件可能因记录而异。一个聚合数据集如果重新分发上游的描述性文本或图像,将继承整个包中适用的最严格条款。生物多样性数据的FAIR原则要求重用条件明确,并且需要在每个数据元素级别追踪来源[9];实践中这对单一来源的发布者来说简单明了,但对包含上游描述性内容的多来源汇编来说则很困难。标准的缓解措施——通过GBIF综合发布工具包发布达尔文核心存档并记录每个来源的许可证[8, 10]——在存储库重新分发受版权保护的文本或图像时,本身并不能解决问题。一个特殊情况出现在CITES附录信息上:尽管附录文本本身是政府间的法律文书,但广泛使用的机器可读汇编(特别是Species+[6])附加了限制其编译材料再分发的条款,当CITES信息进入多来源数据产品时需要进行谨慎的边界管理。

本Data Descriptor报告了一个为解决热带物种商业和饲养特定范围内的这三个限制而构建的资源。该存储库包含410,499个物种,纳入标准针对热带观赏植物、作为观赏物或宠物交易的水生类群,以及作为外来宠物饲养的爬行动物、两栖动物、蛛形纲动物以及选定鸟类和小型哺乳动物。在上游标识符(gbifID, powoID, inatTaxonId, ncbiTaxId, colID, eolID)的基础上,该资源——由tropicals.cn平台制作——增加了三个原创层:(i) 一个跨领域本体,按贸易和饲养场景重新划分类群,并允许多对多领域成员关系;(ii) 一个中文俗名层,应用明确的逐条名称来源类型体系,并排除未经验证的大型语言模型提议;(iii) 一个CITES来源链接层,将每个分类单元链接到其Species+条目,但不重新分发附录值或编译注释。对于原创贡献层,上游描述性文本、图像和原始发生记录被排除;上游记录仅通过稳定标识符引用。这种仅标识符的边界使得原创贡献层可以在CC-BY 4.0下重用,同时通过持久标识符图谱保持对每个上游来源的可追溯性。发布版本打包为通过GBIF综合发布工具包[10]生成的达尔文核心存档[8],同时提供CSV和Parquet格式分发,并存放在Zenodo,概念DOI为10.5281/zenodo.20377811。该贡献定位为现有基础设施之上的新注释和汇编层,而非新基础设施。

## 方法

本节记录了当前存储库中应用的协议。覆盖率统计反映生产数据库的工作快照(2026-04-20)。“工作快照”日期指的是生产数据库SELECT时间戳,该时间戳用于生成Zenodo存储库文件;因此存储库行数与快照行数完全一致。详细的工程规范(完整的来源权重阶梯、门控谓词子句、许可证黑名单、FAIR逐条原则映射、模式附录、子类别本体)见补充材料。

### 1. 分类学范围与纳入标准

该资源汇编了一个商业/饲养分母,包含工作快照中的410,499个活跃物种。纳入由平台内整理的科级和目级规则控制,范围限定为三个子领域,在生产模式中编码为枚举值category,值分别为tropical_plants、tropical_aquatic和tropical_pets:

1. 1. 热带观赏植物(tropical_plants)。在热带和亚热带园艺中具有大量栽培代表的科:天南星科、兰科、仙人掌科、棕榈科、凤梨科、竹芋科、苦苣苔科;以及景天科、番杏科和阿福花科中的多肉组合。

2. 2. 作为观赏物或宠物交易的水生类群(tropical_aquatic)。辐鳍鱼纲(侧重热带淡水鱼);软骨鱼纲(侧重河魟科,即淡水魟鱼);珊瑚纲(珊瑚);观赏性软体动物。

3. 3. 外来宠物(tropical_pets)。爬行纲、两栖纲、蛛形纲;以及国际宠物贸易中代表的选择性哺乳纲和鸟纲[20]。

工作快照中子领域计数为:271,968个热带植物(tropical_plants),89,695个热带宠物(tropical_pets),48,836个热带水生生物(tropical_aquatic)。枚举值category在行级别是单值的,因此总数之和等于410,499个物种的分母(271,968 + 89,695 + 48,836 = 410,499);这一精确求和是单值模式的一个属性,而非独立的质量信号。多对多的贸易上下文成员关系(例如,一个CITES列出的水生物种同时属于*观赏水生生物*和*受监管贸易*)在一个单独的跨领域本体扩展表中表示,详见§4,该表独立于枚举值category。边界类群——通常是在热带贸易中作为温室观赏植物栽培的温带物种,或通过爱好者渠道进入热带水族贸易的淡水温带鱼类——只有当其商业生命周期与热带类群一起进行时,才被接收进入相关子领域。完整的子类别列表(三个顶层枚举下的200多个子类别)见补充材料§S1。

### 2. 输入数据:来源、版本、许可证边界

原创贡献层(中文俗名、跨领域本体、CITES来源链接)仅通过标识符引用上游来源;上游的描述性文本、图像URL或原始发生记录不纳入这些层。仅标识符的摄取机制使得原创贡献层可以在单一宽松许可证下重用,而不受上游内容异质性条款的影响。来源列于表M1。

表 M1. 输入数据来源、仅标识符摄取边界以及与原创贡献层相关的许可证。所有来源访问时间为2026-04-18至2026-04-20。

| 来源 | 详细信息 |
|------|----------|
| GBIF [1] | *角色:*分类学骨干;同义词图谱;英语俗名参考集。*标识符字段:*gbifID。*摄取的字段:*标识符;接受名字符串;taxonomicStatus;高级分类字符串;英语俗名字符串。*明确排除的字段:*发生记录;坐标;描述性文本;图像URL;多媒体。*与存储库相关的许可证:*上游记录按记录混合许可证;仅标识符摄取避免了再分发。|
| POWO [2] | *角色:*植物接受名权威;同义词图谱。*标识符字段:*powoID。*摄取的字段:*标识符;接受名字符串;taxonomicStatus;英语俗名字符串。*明确排除的字段:*描述段落;分布文字;图像URL。*与存储库相关的许可证:*Kew CC-BY;标识符字符串和拉丁双名法视为事实数据。|
| iNaturalist [3] | *角色:*俗名扩展;观察派生的分类标识符。*标识符字段:*inatTaxonId。*摄取的字段:*标识符;接受名字符串。*明确排除的字段:*用户生成文本;照片;坐标;观察者身份;时间戳。*与存储库相关的许可证:*默认CC-BY-NC;仅标识符摄取。|
| NCBI [4] | *角色:*跨领域分类标识符。*标识符字段:*ncbiTaxId。*摄取的字段:*标识符;接受名字符串。*明确排除的字段:*序列数据;文献引用;俗名字段(未使用)。*与存储库相关的许可证:*摄取的字符串属美国公有领域。|
| CoL [5, 18] | *角色:*仅作为跨源标识符连接键(CoL不参与§6的加权投票;见§6)。*标识符字段:*colID。*摄取的字段:*标识符;接受名字符串。*明确排除的字段:*源数据集元数据;清单文字。*与存储库相关的许可证:*清单为CC-BY 4.0。|
| EOL [7] | *角色:*链接参考层;英语俗名。*标识符字段:*eolID。*摄取的字段:*标识符;英语俗名字符串。*明确排除的字段:*所有内容页面;多媒体。*与存储库相关的许可证:*链接而非复制。|
| Reptile DB / WoRMS / Wikipedia | *角色:*英语俗名参考集(用于§5验证门控)。*标识符字段:*字符串匹配。*摄取的字段:*英语俗名字符串。*明确排除的字段:*描述性处理;图像URL;正文。*与存储库相关的许可证:*仅摄取标识符和俗名字符串。|
| Species+ [6] | *角色:*CITES分类单元概念链接目标。*标识符字段:*speciesplus_taxon_con |

相似文章