面向地理空间数据检索的风险感知LLM代理：设计与初步对抗性评估

arXiv cs.AI 2026/06/16 04:00 论文

摘要

介绍了一种基于LLM的框架，通过自然语言查询从基于云的地理空间目录中检索遥感数据，重点关注安全性和对抗鲁棒性。该系统集成了三个代理，用于意图解释、API调用生成和风险管理。

arXiv:2606.15077v1 公告类型：新摘要：我们提出了一种基于LLM的框架，用于通过自然语言查询从基于云的地理空间目录中检索遥感数据。该系统将用户意图转换为结构化的API调用，从而高效访问卫星图像和环境数据集。其架构集成了三个代理：Guardrail（安全与策略执行）、General-QA（意图解释）和Recommender-Analyst（模式感知的API调用生成）。这种协调设计确保了与外部数据服务的可靠、语义一致交互。该模块化框架通过API模式替换可在不同平台间移植，并支持环境监测、灾害响应和气候分析等应用。它在用户意图与地理空间基础设施之间建立了可扩展的接口，实现了简化且自动化的地球观测工作流程。在对抗性多轮设置下的初步实验表明，提示级别的安全指令可提高鲁棒性，但在API操纵场景中仍存在罕见的高影响失败，这凸显了需要自适应、系统级的防御措施来平衡安全性、可用性和成本效率，从而推动了我们的拦截级Guardrail代理的使用。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:43

# 面向地理空间数据检索的风险感知LLM智能体：设计与初步对抗性评估
来源：https://arxiv.org/html/2606.15077
Joel Cumming2, Jonathan Li1,3, Linlin Xu4, David A. Clausi1
1滑铁卢大学系统设计工程系，滑铁卢，安大略省，N2L 3G1，加拿大 – (y56gao, junli, dclausi)@uwaterloo.ca
2SkyWatch，基奇纳，安大略省，N2H 2G8，加拿大 - [email protected]
3滑铁卢大学地理与环境管理系，滑铁卢，安大略省，N2L 3G1，加拿大 – [email protected]
4卡尔加里大学大地测量工程系，卡尔加里，阿尔伯塔省，T2N 1N4，加拿大 – [email protected]

###### 摘要

我们提出了一种基于大语言模型（LLM）的框架，用于通过自然语言查询从云端地理空间目录中检索遥感数据。该系统将用户意图转换为结构化的API调用，从而实现对卫星影像和环境数据集的高效访问。该架构集成了三个智能体：Guardrail（用于安全与策略执行）、General-QA（用于意图解释）和Recommender-Analyst（用于生成符合模式的API调用）。这种协调设计确保了与外部数据服务的可靠且语义对齐的交互。该模块化框架通过API模式替换可跨平台移植，支持环境监测、灾害响应和气候分析等应用。它构建了用户意图与地理空间基础设施之间的可扩展接口，实现了精简且自动化的地球观测工作流。在对抗性多轮设置下的初步实验表明，提示级别的安全指令能提升鲁棒性，但在API操控场景中仍存在罕见的高影响故障，凸显了需要适应性的系统级防御措施来平衡安全性、可用性和成本效率，这也促使我们采用拦截级别的Guardrail智能体。

###### 关键词：

遥感，大语言模型，数据检索，风险识别，安全防护

## 1 引言

参见图注
图1：提出的用于地理空间洞察与数据检索的LLM系统示意图，包含安全护栏。用户与两个对话智能体之间的所有消息均可通过Guardrail智能体进行安全与合规性检查。一旦检测到用户对话中的地理空间意图，专业化的Recommender-Analyst智能体即被激活。

近年来，大语言模型的进展为自动化复杂地理空间工作流开辟了新途径。我们通过引入一个基于大语言模型（LLM）的框架，扩展了这一能力，该框架可根据自然语言用户查询，智能地从云端数据目录中检索遥感瓦片和图层，这基于我们先前的工作[3,4]，并为SkyWatchTM平台[11]设计。系统解读自然语言对话和指令，在通过精确的应用程序编程接口（API）调用执行之前，引导用户完成目录搜索和推荐；API是一组标准化协议，使智能体能够以编程方式与外部源交互并从中检索数据。

我们基于LLM的系统旨在安全地直接与大型卫星和航空影像库以及环境数据集通过其应用程序编程接口（API）交互。该系统包含三个协调的智能体：Guardrail（基于NeMo Guardrails构建的风险识别与预防智能体）、General-QA（地理空间对话问答智能体）和Recommender-Analyst（对平台API模式有深入了解，能生成精确目录API调用并支持地理空间分析的智能体）。三者形成一个受控的交互循环，强制执行策略合规性，保持与用户意图的语义对齐，并实现卫星和航空影像的可靠检索，使领域专家能优先进行分析性解读，而非底层API编排。该工作流如图1所示。

系统遵循模块化架构。Guardrail和General-QA作为通用智能体运行，而Recommender-Analyst则专门针对SkyWatch API模式。该设计保持可移植性，因为适配如Google Earth Engine、Google Maps Platform或OpenStreetMap等平台仅需在Recommender-Analyst中替换API模式和调用规范即可。

无论是使用SkyWatch数据目录还是其他地理空间数据目录，该框架都支持环境监测、精准农业、灾害响应和气候建模等应用，同时实现对异构目录中地理空间数据的结构化访问。包括加拿大航天局、加拿大环境与气候变化部、加拿大自然资源部以及美国地质调查局在内的政府机构，可以利用该框架进行土地利用、森林砍伐和大气动力学的大规模监测。加拿大公共安全部和FEMA等应急管理组织可利用近实时影像进行灾害响应，研究机构则可从长期档案中自动检索数据以进行模型验证和预测。农业、能源、采矿和保险等工业部门可将该系统用于资源监测、环境评估和风险管理。

通过将LLM驱动的推理与自动化地理空间检索相结合，该框架连接了用户意图与遥感基础设施，实现了自适应且可扩展的地球观测工作流。

## 2 背景

表1：测试的LLM模型的API令牌定价对比（每1M令牌的美元价格，2026年3月）。模型版本和价格可能因服务提供商而变更。

我们早期的多智能体LLM框架[3,4]旨在通过动态API调用生成来自动化地理数据分析，基于Google Maps Platform。在此架构中，LLM本身是通过基础模型提供商提供的应用程序编程接口（API）访问的，而非本地托管。该系统采用导师-工作者结构，导师LLM解读用户指令并为检索基于云的空气质量数据生成可执行的API查询。代码执行模块验证并运行这些LLM生成的调用，确保与Google地图和环境数据流安全、准确地集成。通过自然语言交互自动化数据访问，该框架实现了从多样化传感器网络无缝检索空间和时间指标，如污染物浓度和空气质量指数。通过API服务利用LLM具有显著优势，包括能够利用最先进的计算能力和预训练智能，而无需维护大量本地硬件基础设施的开销。这种方法展示了大型语言模型如何充当用户与复杂GIS系统之间的中介，将描述性命令转化为结构化的、由API驱动的分析。

最近的研究表明，大语言模型（LLMs）可用于自动为地理空间工作流生成可执行的API调用和领域特定代码。ToolLLM框架通过结构化工具使用数据集展示LLMs掌握数千个真实世界API的能力[9]。在遥感和地球观测领域，GEE-Ops研究为Google Earth Engine（GEE）API创建了算子知识库，结合检索增强生成（RAG）时，代码生成准确率提高了20-30%[5]。AutoGEEval框架随后为GEE上的地理空间代码生成了包含1325个测试用例的标准化基准套件，实现了LLMs在该领域的系统评估[13]。最后，LLM-Find自主GIS智能体框架明确专注于数据检索，根据自然语言查询生成并执行程序，以发现、下载和预处理来自异构数据源（如OpenStreetMap、DEM、人口统计数据）的空间数据集[8]。这些贡献共同为我们设计基于LLM的系统提供了信息，该系统可自动化API调用生成、元数据验证以及从云端目录中检索遥感瓦片和图层。

确保可靠的安全护栏仍然是大语言模型（LLM）部署中的核心挑战。Wen等人提出了ThinkGuard，这是一种批评增强型护栏，可生成结构化批评意见以及二元安全标签，从而改善对规则的细微违规检测和可解释性，优于基于规则或仅标签的方法[12]。Young对十种公开可用的护栏模型进行的评估显示，在面对新颖的对抗性攻击时性能显著下降，表明基准准确率可能无法反映实际鲁棒性，并强调了需要面向泛化的评估指标[15]。Yang等人引入了MrGuard，这是一种多语言推理护栏，能够在代码切换和低资源语言干扰下保持安全判断，突显了安全模型中语言多样性的重要性[14]。此外，Lee等人提出了SGuard-v1，这是一个轻量级检测套件，用于有害内容和对抗性提示筛选，专为对话场景设计，扩展了实用护栏架构的空间[6]。NeMo Guardrails是NVIDIA主导的开源工具包，允许开发者为大语言模型应用程序添加可编程的安全护栏，以强制内容安全、防止越狱，并通过声明式配置定义输入、输出、检索和执行约束来控制对话路径。它与多个LLM提供商集成，支持可解释性和模块化安全流程，防止对话和智能体系统中的不当、恶意或违反策略的行为[10]。

对LLM安全性进行基准测试是理解模型风险概况的基础。SafetyBench是一个广泛的评估套件，包含超过11,000个问题，涵盖七个安全关注类别，即使在最先进的模型中也显示出持续存在的安全差距[17]。Cao等人提出了SafeLawBench，这是一个基于法律风险类别构建的安全基准，揭示了顶级模型在安全推理任务上的准确率通常难以超过80%[1]。Zhang等人进一步开发了一个多模型判断框架和一个包含超过44,000个问题的安全与安保基准，增强了针对恶意内容和越狱风险维度的鲁棒性评估，并表明集成评估比单一模型判断提高了可靠性[16]。总体而言，这些基准建立了结构化范式，以系统地量化大语言模型中的安全性、拒绝行为和对抗性漏洞。PyRIT（Python风险识别工具）是微软AI红队开发的开源框架，用于自动化生成式AI系统的红队测试，编排多轮对抗性场景并评估响应，以揭示越狱、不安全内容和隐私泄露等风险。其模块化架构使安全工程师能够定义攻击模板，跨模型执行结构化探测，并评估生成式AI对各种行为和安全性失效的鲁棒性[7]。

参见图注
图2：不同护栏级别下的攻击得分分布：我们的基于NeMo的智能体Guardrail能够可靠地拦截所有攻击。Naive Guard使用系统提示级别的基于指令的安全约束，其表现优于没有此类指令的设置。

基于此能力，我们的系统采用三智能体架构，由一个主要的对话组合加上一个专用的护栏智能体组成。该多智能体系统通过直接与地理空间平台文档交互，自动化遥感数据目录的API生成。除了简单的数据发现，系统还执行复杂的数据检索和地理空间分析，利用瓦片和图层元数据验证层确保精确性。这将框架的实用性从特定的空气质量监测扩展到全面的大规模地球观测。

参见图注
图3：“快速版”与“专业版”攻击者的攻击得分分布：与Gemini 3.1 Flash Lite相比，Gemini 3.1 Pro在API操控/注入方面获得了更高的成功率，并且在一般话题转移方面获得了更高的平均攻击得分。

### 2.1 LLM模型与API成本

我们的智能体和对抗性测试框架利用由外部服务提供商提供的商业可用LLM，而非内部托管模型。这种设计选择降低了基础设施复杂性和维护开销，同时实现了可扩展部署和跨提供商快速集成更新的模型能力。

参见图注
图4：每个目标（折线图）的平均运行最大攻击得分进展，以及绝对最大得分（误差棒）。结果显示，对于一小部分API操控/注入攻击和一般性离题转移，存在完全成功的情况。然而，不恰当话题转移的运行平均值略高于其他目标。

相关模型在智能体和对抗性测试中使用的成本明细如表1所示。该表显示了各层级间令牌定价的广泛差异，高端推理模型如GPT-5 Pro产生显著更高的输入和输出成本，而轻量级模型如GPT-5 Nano和Gemini 3.1 Flash Lite提供显著更低的运行成本。这种结构使得在不同预算限制下进行可控实验成为可能。

参见图注
图5：每个目标的攻击得分分布。结果表明，攻击者在几个实例中完全实现了API操控。该目标是出现频率最高的攻击目标。一般话题转移目标被证实是最容易实现的。该类别中的大多数攻击者尽管偶尔取得部分成功，但仍获得了高分。

## 3 方法

### 3.1 对话智能体

我们主要的对话系统使用Langchain[2]构建，包含两个LLM智能体：General-QA（通用对话智能体）和Recommender-Analyst（具有地理空间分析能力的专家智能体，负责提供地理空间洞察并生成对数据目录和平台的API调用）。在此框架中，底层的大语言模型通过API作为远程服务访问，使系统能够利用高性能的云托管模型。这些智能体的人设和角色通过系统提示定义，我们在测试过程中对其进行了迭代优化。主对话系统以General-QA启动，它重新

面向地理空间数据检索的风险感知LLM代理：设计与初步对抗性评估

相似文章

GeoNatureAgent Benchmark：跨前沿与开源权重基础模型的环境地理空间分析LLM代理基准测试

作为脆弱性的相关性：Web检索如何削弱LLM智能体的安全对齐

@GoogleCloudTech: LLM的工作是推理，而非安全。仅仅依赖内置的模型护栏会让你暴露在高级攻击之下…

EO-Agents：面向地球观测假设生成的三智能体LLM流水线

Libra：面向智能体信息检索的环境训练

提交意见反馈