基于Transformer的利用每日运动轨迹进行野生动物物种分类

arXiv cs.LG 论文

摘要

本文提出了一种基于Transformer的模型,仅利用每日GPS运动轨迹对野生动物物种进行分类。在不同研究和区域的基准测试中,该模型在准确率方面优于LSTM和CNN。

arXiv:2605.06726v1 公告类型:新发布 摘要:仅凭每日运动数据推断野生动物物种身份是一项具有挑战性的任务。我们在Movebank平台上大规模收集了7个物种的GPS轨迹,并在此数据上训练序列模型。在评估轨迹模型时,我们采用了一种协议,即在测试阶段将整个遥测研究区域或特定区域的数据保留(holdout)。我们将基于Transformer的序列模型与LSTM、CNN以及时序卷积网络进行了比较,发现Transformer在平衡准确率方面始终表现更佳,根据物种和实验设置的不同,准确率提升了约8到22个百分点。在分辨率为1小时的大象二分类任务中,Transformer实现了0.83的平衡准确率和0.92的AUC值,大幅优于所有基线模型。在数据受限的条件下,我们通过比较基本位移编码与包含速度、方向和转向行为在内的扩展运动描述符之间的差异,分析了特征表示。通过特征增强,我们观察到了明显的性能提升,尤其对于大型食肉动物、狮子和斑马等代表性不足或数据稀疏的物种。最后,比较1小时和30分钟时间分辨率的实验表明,虽然更精细的采样可以为某些物种捕捉短期运动模式,但统一的1小时分辨率通过减少缺失数据并确保一致的时间覆盖范围,在各研究中展现出更有前景的性能。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/11 06:42

# 基于Transformer的野生动物物种分类:源自日常移动轨迹

来源:https://arxiv.org/html/2605.06726

###### 摘要

仅通过日常移动数据推断野生动物物种的身份是一项具有挑战性的任务。我们在来自 Movebank 平台的大规模、涵盖7个物种的GPS轨迹上训练序列模型。轨迹模型的评估采用一种协议,即在测试期间保留整个遥测研究或区域。我们将基于Transformer的序列模型与LSTM、CNN和时序卷积网络(Temporal Convolutional Networks)进行了比较,发现Transformer始终能实现更高的平衡准确率,增益约为8到22个百分点,具体取决于物种和实验设置。在分辨率为1小时的大象二元分类任务中,Transformer实现了0.83的平衡准确率和0.92的AUC,大幅优于所有基线模型。我们在数据有限的条件下,通过分析基本位移编码与包括速度、方向和转向行为在内的扩展移动描述符之间的差异,检查了特征表示。通过特征增强,我们观察到明显的性能提升,特别是对于代表性不足和稀疏代表的物种,如大型食肉动物、狮子和斑马。最后,比较1小时和30分钟时间分辨率的实验表明,虽然更精细的采样可以为某些物种捕捉短期移动模式,但统一的1小时分辨率通过减少缺失数据并确保一致的时间覆盖,在跨研究中表现出更有前景的性能。

## I 引言

动物携带遥测技术的进步以及 Movebank 等开放数据门户的出现,促进了不同物种、地点和研究之间野生动物移动轨迹数据的积累\[11\]。我们探讨是否可以仅从移动轨迹推断野生动物物种的身份,而不依赖绝对地理位置、栖息地描述符或环境协变量。在这里,一项研究被定义为在特定时间、特定区域内的独立遥测工作,具有其自身的采样方法、项圈技术和环境背景\[9\]。在单一研究或区域数据上训练的模型可能在局部表现良好,但当应用于其他地区时往往失败,因为移动轨迹不仅受物种行为影响,还受到围栏、道路、土地利用模式和人类活动等区域特异性因素的影响\[26\]。为每项研究或每个地区开发多个独立模型通常并非理想选择,因为并非所有地方都有标注数据,且新的监测地点不断被添加。跨区域结合数据使我们能够评估同一物种在不同的公园和国家之间是否表现出一致的移动模式,尽管存在局部差异\[18\]。我们致力于开发能够跨研究和区域泛化的模型,使物种分类依赖于内在的移动行为,而非特定地点的惯例和特性,并在没有数据或先前未见过的区域中保持可用性\[22\]\[31\]。

我们的目标仅使用移动轨迹构建预测物种身份的模型,我们的数据集涵盖7个物种。与使用上下文或环境变量不同,我们明确考察物种是否仅基于其移动方式就能相互区分。除了预测准确率外,我们还研究了使物种分类成功的移动行为,以描述物种间日常存在的不同移动行为模式。在移动方面,这可能包括空间中的移动结构、移动速度、移动方向、转向角或移动模式。利用该地区不同条件下的遥测数据,我们分析了特定物种的移动模式以及这些模式如何用于识别物种。

有几个因素使这个问题变得特别具有挑战性。其中之一是动物遥测数据表现出强烈的空间、时间和个体水平的自相关性。鉴于来自同一动物或区域的连续轨迹观察值高度相似,随机训练-测试划分可能会通过让模型学习动物在哪里而不是如何移动来夸大模型的性能\[22\]。其次,遥测数据集在不同研究中的时间采样分辨率差异很大。将移动轨迹重采样到较大的时间分辨率间隔可能会抑制短期移动动力学,如暂停、方向变化或活动爆发,这些通常具有生态学信息价值,并且可能是区分物种的潜在模式\[8\]。因此,在保持信息丰富的移动模式的同时,平衡跨研究的时间分辨率一致性,构成了基于轨迹的物种分类的根本挑战。

大多数关于动物移动建模的先前工作集中在行为状态分类\[28\]、栖息地选择\[17\]或研究内预测,通常使用隐马尔可夫模型、步长选择函数或循环神经网络,并在个体级别或随机交叉验证方案下进行评估\[20\]。虽然近期研究强调了结构化空间验证和位置偏见的风险\[22\],但很少明确解决仅基于移动的跨研究物种分类问题,更少有人研究特征表示和时间分辨率如何与现代基于注意力的序列模型相互作用。因此,目前尚不清楚报告的性能提升是反映了真实的物种级移动特征,还是特定研究的采样和地理特征的产物\[26\]\[22\]。

在这项工作中,我们通过学习特定物种的移动模式,研究从移动轨迹中对野生动物物种进行分类。我们将每只动物的移动表示为在单个UTC日历日收集的GPS观测值的有序序列。对于每个动物-日,这产生了最多24个位置(1小时时间分辨率)或48个位置(30分钟分辨率)的序列,这些序列作为输入提供给训练用于预测物种身份的序列模型。

我们关注在开放获取遥测数据集中代表性良好且在共享大陆背景下表现出多样化移动行为的非洲野生动物物种。这允许我们使用某些地区收集的数据训练模型,并使用不同地区的数据测试它们,评估物种是否可以基于移动模式而非特定位置特征进行区分。使用 Movebank 数据\[12\],我们系统地选择了七种非洲物种,其开放获取的高分辨率轨迹可供下载和分析——狒狒、水牛、非洲金猫、斑马、大象、狮子和角马。单独的 Movebank 遥测研究可能包括多个物种,物种由不同数量的追踪动物代表。我们将基于Transformer的序列模型\[27\]与来自LSTM、CNN和时序卷积网络\[10\]的基线进行比较。在测试数据集中保留的研究中,Transformer实现了0.81的平衡准确率和0.92的AUC,优于基线模型,其平衡准确率范围为0.68至0.77,AUC范围为0.78至0.87。此外,通过添加从同一轨迹导出的额外移动描述符(速度、方位角和转向角)来增强最小位移编码,使平衡准确率提高了43.10%。最后,我们评估了时间分辨率的影响,并表明虽然更精细的30分钟重采样可以反映某些物种的短期移动动力学,但由于缺失数据较少且时间覆盖更一致,通用的1小时分辨率更适合跨研究建模\[19\]。

## II 相关工作

### II-A 传统移动建模与物种识别

动物移动轨迹的分析建立在移动生态学范式基础之上\[18\]。传统方法依赖相关随机游走、步长选择函数和隐马尔可夫模型(HMMs)从GPS遥测中推断潜在的行为状态(例如,觅食、休息)\[19\]\[1\]。虽然这些生成模型在行为分割方面非常有效,但它们通常是特定于物种或区域的,并非设计用于物种级分类。

从遥测数据进行物种识别的研究相对较少。现有研究主要采用经典的机器学习模型,如随机森林,严重依赖手工制作的特征\[28\]。至关重要的是,先前的评估通常使用随机训练-测试划分。如\[22\]和\[26\]所强调的,这种做法引入了地理泄漏,使模型记忆特定站点的环境例行公事,而非内在的、可泛化的物种行为。因此,以此方式训练的模型可能导致过于乐观的性能表现,并限制其向未见过的区域或研究的泛化能力\[15\]。

### II-B 用于轨迹分类的深度学习

深度学习(DL)促进了将移动轨迹作为多元时间序列进行端到端建模\[6\]。诸如循环神经网络(RNNs)、LSTM和时序卷积网络(TCNs)等序列架构在行为状态推断和短期轨迹预测方面显示出潜力\[21\]。最近,Transformer\[27\]作为强大的序列编码器出现,擅长对日常移动序列中的长程时间依赖性进行建模。

然而,将深度学习应用于跨不同地理区域的物种识别仍处于起步阶段。大多数现有的深度学习研究在单个数据集中评估性能,其跨多研究泛化的能力未经测试。本研究直接解决了这一差距。通过使用Transformer对日常轨迹进行建模,并在评估期间明确强制实施研究级别的保留(hold-out),我们的方法论符合近期对人工智能驱动的保护工作中严格验证的呼吁\[25\],确保提取真正的特定物种运动学特征,而非局部空间伪影。

## III 数据与预处理

本节描述本研究中使用的遥测数据集以及应用于构建在不同采样协议下收集的可比日常移动轨迹的预处理步骤。

### III-A 数据来源与物种选择

我们使用源自 Movebank 的GPS遥测数据,这是一个全球性的动物移动数据档案\[11\]\[12\]。该数据集由七种非洲野生动物的追踪数据组成:*狒狒*、*水牛*、*非洲金猫*、*斑马*、*大象*、*狮子*和*角马*,涵盖非洲的不同地区以及独立的遥测研究。

在这里,一项研究被定义为在特定地区和时期进行的独立遥测活动,通常具有其自身的采样协议、项圈技术和追踪持续时间。单独的研究可能包括多个物种,物种由不同数量的追踪动物代表。由于数据源自具有不同收集协议的各个研究,使用随机划分进行训练和评估的模型可能会捕捉到特定研究或地点的模式,而非物种级的移动特征。为了减轻这种影响,我们在测试期间为每个物种保留整个研究,确保测试数据来自训练和验证期间未观察到的区域和数据收集环境。总共,本研究利用了16个不同的 Movebank 数据集,特意选择以覆盖不同的地理区域。这些单独的遥测活动是在1998年至2023年之间的不同时间进行的。这些实验所用具体 Movebank 研究和数据集划分的细节总结在表I中。

表I:使用的Movebank研究及数据集划分。物种 Movebank 研究ID 划分用途 狒狒 2131q5 (DOI) 测试 狒狒 1723547 训练/验证 狮子 220229 训练/验证 狮子 220229 测试 狮子 150531 训练/验证 角马 132915 测试 角马 225301 训练/验证 角马 1310113 训练/验证 大象 736029750 训练/验证 大象 1818825 测试 大象 3nj3qj45 (DOI) 训练/验证 大象 1630/2970/5990 训练/验证 水牛 2138 训练/验证 水牛 1803741 训练/验证 非洲金猫 1.317 (DOI) 训练/验证/测试 水牛/斑马 259966228 水牛:测试 斑马:所有划分

### III-B 时间标准化与重采样

遥测数据表现出不同的采样间隔,连续观测值之间的间隔从少于一小时到多于一小时不等。为了确保跨研究的时间可比性,所有轨迹都使用两种分辨率重采样到固定的时间网格上:1小时和30分钟间隔。统一的时间分辨率是比较移动分析和序列建模的常见前提条件\[8\]。

令 $\{t_i, \mathbf{p}_i\}_{i=1}^N$ 表示单个动物的原始GPS轨迹,其中 $t_i$ 是时间戳,$\mathbf{p}_i = (\text{lat}_i, \text{lon}_i)$ 是记录的位置。在重采样之前,在同一确切时间戳记录的任何原始观测值都会进行空间平均,以减少测量噪声,同时保持时间连续性。

我们在分辨率为 $\Delta t$ 的规则时间网格上构建轨迹(对于每小时重采样 $\Delta t=1$ 小时,对于每半小时重采样 $\Delta t=30$ 分钟)。每个原始时间戳 $t_i$ 通过 $\tilde{t}_i = \operatorname{round}_{\Delta t}(t_i)$ 映射到最近的时间网格点,其中 $\operatorname{round}_{\Delta t}(\cdot)$ 表示舍入到 $\Delta t$ 的最近倍数,确保时间位移满足 $|t_i - \tilde{t}_i| \leq \Delta t/2$。如果多个观测值映射到相同的时间网格点,仅保留 $|t_i - \tilde{t}_i|$ 最小的观测值。

令 $\mathcal{T} = \{\tau_0, \tau_1, \dots, \tau_n\}$ 表示从最早到最

相似文章

使用稀疏Transformer进行生成建模

OpenAI Blog

OpenAI推出了稀疏Transformer,一种深度神经网络,将注意力机制的复杂度从O(N²)优化到O(N√N),使得能够对长度超过以前30倍的序列进行建模,适用于文本、图像和音频领域。该模型采用稀疏注意力模式和基于检查点的内存优化技术,可以训练深达128层的网络,在多个领域实现了最先进的性能。

使用时间段模型进行预测和控制

OpenAI Blog

OpenAI 推出了一种使用深度生成模型在时间段上学习复杂非线性系统动力学的方法,能够实现稳定的长期预测和可微分的轨迹优化以进行基于模型的控制。