面向野外的可持续智能:通过知识自适应边缘专家代理实现生态监测民主化

arXiv cs.AI 论文

摘要

本文提出了一种用于生态监测的知识自适应边缘专家代理架构,将视觉感知与推理分离,以减少对云资源的依赖,并在远程部署中实现可持续的端侧AI。

arXiv:2605.16671v1 公告类型:新 摘要:生物多样性的快速丧失凸显了有效监测的紧迫性,然而人工调查仍然耗费大量资源。端侧AI提供了一种可扩展的替代方案,但其在野外环境中的性能常受环境变异性挑战。当前方法严重依赖云资源,需要持续上传现场数据进行模型重训练。这种方法不适用于远程部署,因为它消耗有限的电量和网络连接。为解决这些限制,本研究提出从模型适应转向知识适应。我们引入了一种将视觉感知与推理分离的架构,结合了视觉编码器和动态知识库。我们使用显式知识库来替代将专家知识隐式编码到模型参数中。该方法还通过以结构化形式保留专家见解来支持知识的可持续性。通过与生物学家和原住民社区的跨学科合作,这项工作推动了合乎伦理的AI共同发展,促进了负责任且具有文化意识的生态系统管理。
查看原文
查看缓存全文

缓存时间: 2026/05/19 06:34

# 为荒野赋予可持续智能:通过知识自适应边缘专家代理实现生态监测民主化
来源:https://arxiv.org/html/2605.16671
郝方¹, 迟旭¹, 苗张¹, 蒋传刘¹, 威廉·I·阿特拉斯², 卡特里娜·M·康纳斯³, 马克·A·斯波拉里奇⁴
¹西蒙菲莎大学,温哥华,加拿大
²野生鲑鱼中心,波特兰,美国
³太平洋鲑鱼基金会,温哥华,加拿大
⁴海达渔业项目,斯基德盖特,加拿大
{jla641,fanghaof,chix,mza94,jcliu}@sfu.ca, [email protected], [email protected], [email protected]

###### 摘要

生物多样性的迅速丧失凸显了有效监测的紧迫性,然而人工调查仍然资源密集。虽然设备端AI提供了一种可扩展的替代方案,但其在野外的性能常常受到环境变化的挑战。当前方法严重依赖云资源,需要持续上传现场数据以进行模型重训练。这种方法不适用于偏远部署,因为它消耗了有限的电力和网络连接。为应对这些限制,本研究提出从模型适应转向知识适应。我们引入了一种将视觉感知与推理分离的架构,结合了视觉编码器与动态知识库。我们使用显式知识库来替代将专家知识隐式编码到模型参数中。该方法还通过以结构化形式保存专家见解来支持知识可持续性。通过与生物学家和原住民社区的跨学科合作,这项工作推动了合乎伦理的AI协同开发,促进负责任且融入文化智慧的生态系统管理。

## 1 问题陈述

参见标题 图 1:离网现实:我们的试点站完全依靠太阳能收集(光伏板)和卫星传输(Starlink),造成了严格的能源预算。
参见标题 图 2:适应差距:鲑鱼物种的视觉特征在空间(河口 vs. 产卵地)和时间上显著漂移,导致静态模型失效。

全球生态系统正经历快速扰动,导致陆生、海洋和淡水栖息地的物种普遍减少,其中淡水物种的损失最为严重 (World Wide Fund for Nature 2024; Waples et al. 2008; Di Lorenzo and Mantua 2016; Frölicher and Laufkötter 2018; Kilduff et al. 2015; Dorner et al. 2018)。因此,可靠的野生动物感知与分析对于及时、基于证据的保护决策至关重要 (Kshitiz et al. 2023; Gordon et al. 2023; Díaz Musmanni 2023; Atlas et al. 2021; Schindler and Hilborn 2015)。然而在实践中,生态监测仍主要通过人工调查和专家注释来扩大规模:现代的相机陷阱和河流内视频系统每季可生成数百万张图像,而专家审查则需要数万个小时——导致持续的数据积压和延迟的管理行动 (Nature Tech Collective 2025; Norouzzadeh et al. 2018)。

先前的工作已逐步将鲑鱼监测从人工审查转向自动感知和学习。基于视频的堰系统首先应用计算机视觉来加速季内鱼类计数 (Atlas et al. 2023),而基于声纳的流程则通过在声纳视频中进行检测和跟踪来解决低能见度河流的问题 (Kay et al. 2022, 2024)。SALINA 通过实时声纳分析和在偏远生态系统中(原住民领土内)的能耗感知部署,进一步推进了这一方向 (Xu et al. 2024)。Xu et al. (2025) 探索了结合专家参与流程的多模态基础AI,以支持在基础设施有限的土著河流中实现物种鉴定、计数和长度测量,用于可持续渔业管理。FUSED 进一步研究了在独立治理的生态数据域间进行主权保护的多模态检索 (Xu et al. 2026)。然而,现场部署仍主要受限于当前的*模型适应*范式(即持续上传原始数据用于注释和云端重训练,然后下载并部署更新的模型权重) (Xu et al. 2025; Folkman et al. 2025),该范式在离网运行下仍然失效,并且无法保存专家逻辑。这一差距导致了两个核心障碍:操作障碍和知识障碍。

### 1.1 操作障碍:离网河流中受基础设施限制的AI

第一个障碍是操作性的。许多优先流域是*缺乏基本基础设施支持的偏远生态系统*,在这些系统中,部署必须在严格的资源限制下维持感知、计算和数据传输 (Axford et al. 2024)。在我们的试点站(图1)中,整个流程在离网状态下运行,依靠太阳能收集(光伏板)和电池存储,而广域通信则依赖于高功率卫星终端(Starlink)。这种耦合在*生态覆盖范围*和*系统正常运行时间*之间造成了艰难的权衡:持续连接直接与感知、本地存储和设备端推理所需的能源预算相竞争 (Xu et al. 2024)。

我们的试点部署直接揭示了这一限制的严重性。在经常阴天的温带雨林条件下,保持始终在线连接会在72小时内迅速将电池储备消耗至安全阈值(30%),迫使放弃“云优先”假设,转而采用稀疏、低功耗的通信方式,将连接限制在每天短暂的时段(约2小时/天)。

这些现实进一步暴露了当前*模型适应*范式的局限性 (Xu et al. 2025; Folkman et al. 2025)。在基础设施受限的野外,模型更新通常需要通过卫星链路(例如,平均上行速率14.84 Mbps的Starlink (Hill 2025))反复传输数GB的原始视频用于云端注释和重训练,然后将更新后的检查点推回现场。这个闭环在能源、带宽和周转时间方面成本高昂,并增加了运营成本和碳足迹 (Yang et al. 2024; Xu et al. 2024)。

### 1.2 知识障碍:从日渐消失的专业知识到可执行的数字遗产

第二个障碍是知识。鲑鱼的外观和环境背景在空间和时间上迅速变化(图2)。即使在单一物种内,视觉特征在整个洄游周期中也会漂移:河口附近的奇努克鲑鱼呈银白色、流线型,当它向上游移动时,会转变为带有明显骨骼变化的深色或亮红色产卵形态 (Axford et al. 2024)。

模型适应范式试图通过在大规模数据集上训练来吸收现场专业知识,隐式地将领域知识编码到模型参数中。然而,当模型在不同地点、季节和生命阶段部署时,时空漂移仍然可能导致性能下降。同时,故障难以追溯,新的知识无法以有原则、透明的方式快速迭代或整合 (Xu et al. 2025; Liu et al. 2024)。

此外,我们与利益相关方的接触凸显了一个日益加剧的危机:专家稀缺以及保留实用现场专业知识的挑战 (Wu et al. 2022)。高质量的监测严重依赖资深野外生物学家和原住民管理从业者,他们的知识往往是隐性的、高度本地化的,并且仅记录在零散的笔记中 (Paul et al. 2024; Ma et al. 2024; Liu et al. 2024)。随着专家退休或在各流域间轮换,这种“河流逻辑”有丢失的风险——恰逢气候驱动的变异性增加了对适应性决策的需求。

这促使我们超越黑箱模型适应和单一指标的“更好性能”:通过与领域专家的积极合作,我们追求一种新的应用范式,共同瞄准 (i) 用于基础设施受限野外部署的*可持续AI* 和 (ii) 保存并运营本地化管理逻辑的*知识可持续性*。

## 2 与可持续发展目标和“不让任何人掉队”原则的一致性

2030年可持续发展议程概述了全球和平与繁荣的蓝图 (United Nations 2015)。其核心原则——“不让任何人掉队”(LNOB) 原则——强调了将技术进步扩展到弱势社区和脆弱生态系统的必要性 (United Nations 2021)。本研究从数据密集的云端重训练转向带宽高效的知识适应。通过这样做,我们的架构与几个可持续发展目标(SDGs)保持一致:

#### 可持续发展目标 13:气候行动(绿色AI)。

传统的AI监测由于频繁的云端重训练和高带宽传输而产生高昂的碳成本。本研究通过采用资源高效的架构来支持可持续发展目标 13.2(“将气候变化措施纳入政策”)。该系统通过用轻量级知识图谱维护替代密集的参数更新,最大限度地减少计算能耗。此外,它通过传输紧凑的语义文本而非原始视频来降低通信成本。

#### 可持续发展目标 14:水下生物 & 可持续发展目标 15:陆地生物。

有效的生物多样性保护依赖于及时、精细的生态数据,然而人工调查仍然成本高昂且难以扩展。本研究通过部署能够在野外进行细粒度物种鉴定和行为分析的自主体,推进了可持续发展目标 14.2(“可持续管理海洋生态系统”)和可持续发展目标 15.5(“遏制生物多样性丧失”)。

#### 可持续发展目标 17:促进目标实现的伙伴关系。

可持续的保护依赖于计算机科学与生态学的整合。我们建立了一个统一的架构,连接AI研究人员、野外生物学家和保护机构,以促进技术向生态实践的转移。本研究通过跨学科动员专业知识,推进了可持续发展目标 17.16(“加强全球伙伴关系”)和可持续发展目标 17.17(“鼓励多利益攸关方合作”)。

#### 与“不让任何人掉队”原则的一致性。

当前的“数字鸿沟”限制了先进AI在偏远保护区域的应用。本研究通过民主化和保存专家知识与“不让任何人掉队”原则保持一致。该系统将隐性专业知识形式化为可更新的知识图谱。这一过程保护了面临丢失风险的关键科学见解。最终,该项目赋予当地社区专业级的监测工具,

## 3 策略

参见标题 图 3:语义鸿沟:通用视觉语言模型(Qwen3-VL-8B)能够识别视觉线索(绿色),但在缺乏特定领域的排除逻辑时,会错误猜测物种标签(红色)。
为克服上述操作和知识障碍,我们提出**知识自适应边缘专家代理 (KADEX)** 作为从*模型适应*到*知识适应*的战略性转变。当今的野外现场计数流程仍主要由纯视觉检测器主导(例如,YOLO (Wang et al. 2024) 和 RT-DETR (Zhao et al. 2024)),而最近用视觉语言模型替代它们的尝试仍受限于相同的两个现场现实:有限的边缘计算仅能维持小参数模型,端到端的视觉语言模型重训练/微调则放大了数据、能耗和带宽成本。KADEX 的动机源于一个关键观察:对于小参数视觉语言模型,主要的瓶颈通常是缺失的专家逻辑,而这种逻辑不需要永久嵌入模型权重中。相反,它可以被外部化、更新,并作为轻量级知识层按需检索。

参见标题 图 4:战略范式转变:不是在云端重训练大型模型(高能耗/成本),KADEX 在边缘更新轻量级外部知识库(低能耗/成本)。
参见标题 图 5:视觉模糊性与分类学精确性:区分视觉相似但科学上不同的实体,其范围超出了鲑鱼,延伸到植物、矿物和地貌。

### 3.1 知识适应以补偿视觉语言模型

图 3 说明了 KADEX 背后的机遇。即使小参数视觉语言模型(Qwen3-VL-8B, Bai et al. 2025)在细粒度物种鉴定中失败,其视觉编码器仍然可以提取出具有判别力的野外特征(例如,斑点、体色、形状)。失败发生在将这些线索映射到标签时,缺乏专家应用的排除性和上下文规则(例如,“红鲑没有背部/尾部斑点”)。KADEX 将专家逻辑与模型参数解耦,以避免昂贵的重训练。它通过使用检索增强生成 (RAG) (Lewis et al. 2020; Li et al. 2024; Yu et al. 2024) 将本地规则和约束注入到轻量级知识库中来实现这一点。这使得领域知识能够快速、低带宽地迭代,同时保持设备端推理的可行性。

### 3.2 解耦的感知与可迁移的知识层

在操作上,KADEX 通过将感知与认知解耦来实现这一转变。一个稳定的、轻量级的感知模块(例如,CLIP (Radford et al. 2021))提取视觉证据,而一个基于动态检索的知识库提供不断演变的专家约束。图 4 显示,适应是通过更新外部知识层来驱动的,而不是反复重训练和重新部署模型权重。这种设计使得在稀疏连接和紧张能源预算下进行迭代成为可能。

更广泛地说,KADEX 针对生态识别中反复出现的挑战:即使带有完整的视觉线索,仅凭视觉信息通常也不足以做出分类学决策,

相似文章

Agent-World:面向演进式通用智能体的现实世界环境合成扩展

Hugging Face Daily Papers

# 论文页面 - Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence 来源:[https://huggingface.co/papers/2604.18292](https://huggingface.co/papers/2604.18292) 发布于 4 月 20 日 · 提交者[https://huggingface.co/dongguanting](https://huggingface.co/dongguanting) [![](https://cdn-avatars.huggingface.co/v1/production/uploads/61cd4b833dd34ba1985e0753/BfHfrwotoMESpXZOHiIe4.png)](https://huggingface.co/dongguanting) [KABI](https://huggingface.co/donggua