GeoNatureAgent Benchmark:跨前沿与开源权重基础模型的环境地理空间分析LLM代理基准测试
摘要
本文介绍了GeoNatureAgent Benchmark,这是首个通过结构化工具调用评估LLM代理在环境地理空间分析任务上表现的基准。它对18个类别的93项任务中的七个模型进行了评估,发现Claude Sonnet 4以60.8%的准确率领先,而DeepSeek V3.2等开源权重模型则提供了强大的性价比。
arXiv:2606.12821v1 Announce Type: new
摘要:环境科学家将过多精力花在数据整理而非分析上,而自动化地理空间工作流的AI代理尚未得到验证:目前没有基准能够评估通过结构化工具调用与真实API交互的代理。我们引入了GeoNatureAgent Benchmark,这是首个针对通过结构化工具调用与生产级地理空间API交互的环境分析代理的基准。它包含18个类别的93项任务,涵盖行政区分析、多轮对话、空间推理、跨指标综合、错误处理与恢复、排序、比较、多语言理解、栖息地分析以及任务拒绝。任务通过一个开放、可自托管的API进行评估,该API通过16个工具提供西班牙和葡萄牙的三种环境指标。我们评估了七个LLM(Claude Sonnet 4、DeepSeek V3.2、GLM-5、Gemini 2.5 Pro、Qwen3-235B、GPT-OSS-120B、Llama 4 Scout),使用三个温度为1.0的种子,将能力和每次案例的成本作为正交维度进行报告。我们发现:(1) Claude Sonnet 4以60.8% ± 0.8%的准确率领先,其次是DeepSeek V3.2的56.3% ± 3.1%,其他模型均未超过51%;(2) 成本-准确率帕累托前沿主要由开源权重模型占据,其中DeepSeek V3.2以11倍更低的成本($0.011/案例)提供了Claude能力的93%;(3) 比较任务普遍未解决(接近值比较准确率为0%),暴露了系统性的推理局限;(4) 与真实API的结构化工具调用比通用GIS基准更具区分度,准确率低25-35个百分点。我们还通过将BigEarthNet V2的葡萄牙土地覆盖数据与西班牙的CO2和侵蚀指标集成展示了可扩展性。该基准、测试工具以及可自托管的API均已公开提供。
查看缓存全文
缓存时间: 2026/06/12 08:53
# GeoNatureAgent基准测试:面向前沿与开源权重基础模型的环境地理空间分析LLM智能体基准测试 来源:https://arxiv.org/html/2606.12821 ###### 摘要 环境科学家花费过多精力处理数据整理而非实际分析。新兴的AI智能体可以成为有用的工具,但它们的应用仍需验证。此外,目前尚不存在能够评估那些通过结构化工具调用、针对真实API实现环境地理空间工作流自动化的人工智能智能体的基准测试。我们提出了**GeoNatureAgent基准测试**,这是首个针对通过结构化工具调用操作生产级地理空间API的环境分析智能体的基准测试。该基准测试包含18个类别的93项任务,涵盖市级分析、多轮对话、空间推理、跨指标综合、错误处理与恢复、排序、比较、多语言理解、栖息地分析、深度剖析、时间变化以及任务拒绝。任务通过一个开放、可自托管的地理空间API进行评估,该API通过16个工具(12个特定领域操作和4个辅助工具)服务于西班牙和葡萄牙的三种环境指标。我们在Vertex AI和Anthropic平台上,以每个模型三种温度-1.0的随机种子,评估了七种大语言模型(Claude Sonnet 4、DeepSeek V3.2、GLM-5、Gemini 2.5 Pro、Qwen3-235B、GPT-OSS-120B和Llama 4 Scout),并将能力和单次成本作为正交轴进行报告。结果表明:(1) Claude Sonnet 4能力最高,达到60.8%±0.8%,DeepSeek V3.2紧随其后,为56.3%±3.1%,而其他模型均未超过51%;(2) 成本-准确率帕累托前沿主要由开源权重模型占据(Llama 4 Scout → Qwen3-235B → DeepSeek V3.2 → Claude Sonnet 4),其中DeepSeek V3.2以11倍更低的成本($0.011/次)提供了Claude 93%的能力;(3) 比较任务普遍无法解决(大多数模型在接近值比较任务上的准确率为0%),暴露了系统性的推理局限性;(4) 针对真实API的结构化工具调用提供了对真实世界智能体能力更具区分度的衡量,其平均准确率比通用GIS基准测试报告的结果低25-35个百分点。我们进一步通过整合葡萄牙的BigEarthNet V2土地利用覆盖数据以及西班牙的CO2适宜性和沟壑侵蚀指标,展示了地理和领域的可扩展性。GeoNatureAgent基准测试、评估框架和可自托管的API均已公开提供¹。 地理空间AI,基准测试,LLM智能体,工具调用,环境分析 ††会议:预印本; ††版权:无 ††CCS:计算方法 神经网络 ††CCS:通用与参考 评估 ††CCS:信息系统 地理信息系统 ††CCS:计算方法 智能智能体 ††CCS:计算方法 多智能体系统 ††CCS:计算方法 信息提取 ††CCS:应用计算 地球与大气科学 ††脚注:预印本。已提交至ACM SIGSPATIAL 2026。 ## 1. 引言 大规模环境监测需要多时相地理空间分析,包括检测土地利用覆盖变化、评估侵蚀风险或计算植被指数;此外,还需要生成用于法规遵从的统计摘要。从业人员通常将大部分精力花费在数据整理、发现数据集、重投影坐标系统以及调试针对遥感API的代码上(Zhang et al., 2024; Li and Ning, 2023)。这种专业知识的壁垒限制了了解环境系统但缺乏GIS编程技能的领域科学家采用地理空间方法。 大语言模型的最新进展催生了能够将自然语言转化为可执行地理空间操作的人工智能智能体系统。其架构涵盖从带有工具池的LLM(Zhang et al., 2024; Akinboyewa et al., 2025)到微调专家模型(Zhang et al., 2025a, b),再到达到85-97%准确率的多智能体系统(Luo et al., 2026; Lee et al., 2025)。主要行业参与者正在大力投资:Google的Earth AI将Gemini与AlphaEarth Foundations集成(Google Research, 2025);Planet-Anthropic合作将Claude应用于每日卫星图像(Planet Labs and Anthropic, 2025);NASA/IBM的Prithvi-EO-2.0提供了预训练的视觉变换器(Szwarcman et al., 2026)。 然而,关键性的评估空白依然存在。针对地理空间领域LLM智能体的公开基准测试仍然稀缺,且现有的少数基准测试针对的是通用GIS任务(GeoBenchX, Krechetova and Kochedykov, 2025; ThinkGeo, Shabbir et al., 2026),而非环境科学工作流。环境知识基准测试(EnviroExam, Huang et al., 2024)评估的是知识,而非智能体行为。代码生成基准测试(UnivEARTH, Kao et al., 2025)并未反映生产系统所采用的结构化API交互——58%的LLM生成的地球引擎代码无法执行。在基础模型层面,GEO-Bench(Lacoste et al., 2023)和GEO-Bench-2(Simumba et al., 2026)评估的是像素级视觉模型,而非决定现实世界可用性的智能体级工具编排。 本工作通过四项主要贡献填补了这一空白: 1. (1) **GeoNatureAgent基准测试**——首个针对使用结构化工具调用、操作生产级地理空间API的环境分析智能体的基准测试,包含18个类别的93项任务、一个十六工具智能体接口,每个案例通过八项机制性检查进行评估(无LLM作为评判者)。 2. (2) **多随机种子跨平台评估**——对七个LLM的系统性比较,涵盖前沿闭源模型(Claude Sonnet 4, Gemini 2.5 Pro)和前沿开源权重系列(DeepSeek V3.2, GLM-5, Qwen3-235B, GPT-OSS-120B, Llama 4 Scout),每个模型在相同基础设施下以三个温度-1.0随机种子进行评估,报告均值±标准差;能力和单次成本作为正交轴报告,而非合并为单一的封闭分数。 3. (3) **成本效率帕累托分析**——定量成本-准确率映射显示,成本-准确率帕累托前沿主要由开源权重模型占据,其中DeepSeek V3.2以11倍更低的成本提供了Claude 93%的能力。 4. (4) **可复现的MLOps流水线与开放API**——一个全自动的Cloud Build流水线,在对象存储中生成对话跟踪级别的结果,加上一个Apache-2.0可自托管的FastAPI服务,使得整个评估无需任何私有端点即可复现。 本文的其余部分安排如下:第2节回顾了地理空间AI智能体和基准测试的相关工作。第3节描述了GeoNatureAgent基准测试的设计、ReAct风格智能体架构以及评估协议。第4节展示了实验结果,包括七个评估模型的成本-准确率帕累托分析。第5节提供了讨论,将发现与先前基准测试进行比较并探讨领域可扩展性。最后,第6节总结了结论并提出了未来工作建议。 ## 2. 相关工作 ### 2.1. 地理空间AI智能体架构 文献揭示了地理空间AI智能体架构的四种范式。**LLM + 工具池**方法将通用LLM与可调用工具配对:GeoGPT(Zhang et al., 2024)使用带LangChain的GPT-3.5-turbo,LLM-Geo(Li and Ning, 2023)使用GPT-4进行基于DAG的分解,GIS Copilot(Akinboyewa et al., 2025)将LLM集成到QGIS中。**微调专家模型**以通用性换取专业性:GTChain(Zhang et al., 2025a)微调了LLaMA-2-7B,准确率比GPT-4高出32.5%;EnvGPT(Zhang et al., 2025b)在1亿环境令牌上微调了一个8B模型,与GPT-4o-mini相媲美。**多智能体系统**分解任务:GeoJSON Agents(Luo et al., 2026)使用GPT-4o Planner-Worker架构达到97%的准确率,而单智能体仅为49%;GeoLLM-Squad(Lee et al., 2025)通过专门子智能体获得了17%的提升。**成本高效混合**:Geo-OLM(Stamoulis and Marculescu, 2025)使得小于7B的模型能够以100倍更低的成本实现与GPT-4o差距在10%以内的性能。 ### 2.2. 基准测试与评估 智能体工具使用由GeoBenchX(Krechetova and Kochedykov, 2025)、ThinkGeo(Shabbir et al., 2026)(486个遥感任务)和UnivEARTH(Kao et al., 2025)(地球引擎代码生成准确率仅33%,代码失败率58%)进行评估。GeoBenchX是与GeoNatureAgent基准测试最接近的可比工作:202个任务,涵盖五个类别(合并-可视化、处理-合并-可视化、空间操作、热力图/等高线图、控制问题),通过24个通用GIS工具(数据加载、过滤、空间连接、分级统计图渲染)进行评估,采用LLM作为评判者的评分协议(3分量表,三名独立评判者与人工标注达到88-96%的一致性)。最佳表现者是o4-mini和Claude 3.5 Sonnet。关键在于,GeoBenchX工具是操作本地文件的低级原语——`load_data`、`filter_categorical`、`create_buffer`、`make_choropleth_map`——而GeoNatureAgent基准测试的工具是针对生产云API的高级领域操作。 **地图推理**:MapEval(Dihan et al., 2025)(没有模型超过67%)、MapQA(Arnold et al., 2026)(人类91%,模型<50%)。**空间推理**:GPSBench(Truong et al., 2026)、SpatiaLab(Wasi et al., 2026)(人类88%,最佳模型55%)。**基础模型**:GEO-Bench(Lacoste et al., 2023)和GEO-Bench-2(Simumba et al., 2026)评估*像素级*分类/分割,涵盖19个数据集;PANGAEA(Marsocci et al., 2025)发现基础模型并不一致地优于监督基线。 ##### 关键区别:**GEO-Bench评估像素级模型准确率(*这个模型能对卫星图块进行分类吗?*);GeoNatureAgent基准测试评估智能体级工具编排(*这个智能体能推理出调用哪些工具吗?*)。两者是互补的。** ### 2.3. 环境科学AI EnvGPT(Zhang et al., 2025b)等专用模型表明,专注于环境令牌的微调使得较小的架构能够与GPT-4o-mini等前沿模型相媲美(Zhang et al., 2025b)。在工业和研究领域,Google的Earth AI(Google Research, 2025)在地理空间问答任务上达到了82%的准确率(基线Gemini为50%),而Pan等人(Pan and Nipu, 2025)开发的MCP驱动接口在空气质量监测中达到了4.78/5.0的事实准确性(Pan and Nipu, 2025)。这种技术演进对于满足新的法规要求(如西班牙RD 214/2025(Kingdom of Spain, 2025),该法规要求约4000家组织报告其碳足迹)日益关键,从而推动了对自动化、多时相地理空间分析的重大需求。 ### 2.4. 缺失的基准测试 目前还没有现有的基准测试能够评估执行针对真实地理空间API的结构化工具调用、并具备多轮对话、多语言输入和跨指标综合能力的环境分析智能体。GeoNatureAgent基准测试填补了这一空白。 ## 3. GeoNatureAgent基准测试 ### 3.1. 基准测试设计 GeoNatureAgent基准测试包含93项任务,分为18个类别(见表1),涵盖简单(19%)、中等(45%)和困难(36%)难度级别。 **表1.** GeoNatureAgent基准测试 v5 任务类别(93项任务,18个类别)。 每个任务指定:自然语言查询(可选带有多轮历史)、预期的工具调用、必须包含/不得包含的字符串、最大轮次、成本预算以及领域专家提供的真实答案。错误处理任务故意设计为无法解决——请求分析不存在的市镇、从仅显示层捏造统计数据、或引用不存在的指标——以测试智能体优雅地拒绝而非产生幻觉的能力。 该基准测试覆盖两个国家的三种环境指标: - • **CO2吸收适宜性**(分类,西班牙):立法预筛选,编码了五个MITECO空间标准(Kingdom of Spain, 2025),产生三个类别(不合格、有条件合格、合格)。作为云优化地理TIFF提供服务。 - • **沟壑侵蚀概率**(连续,欧洲):基于LUCAS 2022土壤调查的机器学习预测(0–100%)。作为云优化地理TIFF提供服务。 - • **BigEarthNet V2土地利用覆盖**(分类,葡萄牙):源自75k+标注的哨兵2号图块(Clasen et al., 2025)的7类土地利用覆盖分布,按葡萄牙行政区聚合。作为预计算的JSON统计信息提供。 另有七个附加层可供视觉显示,但不能用于统计分析,从而构成自然的幻觉陷阱。 为了与通用GIS基准测试进行直接比较,我们将GeoBenchX(Krechetova and Kochedykov, 2025)中的四个经典GIS操作集成到我们的工具集中:邻近缓冲(`create_buffer`)、按空间关系选择要素(`select_features_by_spatial_relationship`)、质心提取(`get_centroids`)以及显式任务。
相似文章
面向地理空间数据检索的风险感知LLM代理:设计与初步对抗性评估
介绍了一种基于LLM的框架,通过自然语言查询从基于云的地理空间目录中检索遥感数据,重点关注安全性和对抗鲁棒性。该系统集成了三个代理,用于意图解释、API调用生成和风险管理。
EnvSimBench:用于评估和改善基于大语言模型的环境模拟的基准
本文介绍了 EnvSimBench,这是一个用于评估大语言模型在智能体训练中模拟环境能力的基准。它指出了当前大语言模型中存在的“状态变化悬崖”问题,并提出了一种约束驱动的流水线以减少幻觉和降低成本。
WildClawBench:真实世界长周期智能体评估基准
WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。
Gate AI:LLM安全基准评估方法与结果
本文提出了一种针对LLM安全检测器的评估方法,旨在解决诸如按数据集调阈值、未公开操作点等系统性缺陷。该框架在16个基准上进行交叉验证,选取单一全局操作点,并包含多项泛化能力诊断指标。
TerraBench:智能体能否推理异构地球系统数据?
TerraBench 是一个新基准,用于评估人工智能智能体在异构地球系统数据(包括网格数据、卫星图像和模拟器输出)上进行推理的能力。它揭示了当前前沿模型的显著局限性,表现最佳的模型平均工具使用得分仅为 59.2%。