TerraBench:智能体能否推理异构地球系统数据?
摘要
TerraBench 是一个新基准,用于评估人工智能智能体在异构地球系统数据(包括网格数据、卫星图像和模拟器输出)上进行推理的能力。它揭示了当前前沿模型的显著局限性,表现最佳的模型平均工具使用得分仅为 59.2%。
查看缓存全文
缓存时间: 2026/06/12 08:55
# 智能体能否在异质地球系统数据上进行推理? 来源:https://arxiv.org/html/2606.13148 Dat Tien Nguyen¹、Thao Nguyen¹、Fadillah Adamsyah Maani¹、Huy M. Le¹、Muhammad Umer Sheikh¹、Numan Saeed¹、Muhammad Haris Khan¹、Salman Khan¹ ¹穆罕默德·本·扎耶德人工智能大学,阿布扎比,阿联酋 ###### 摘要 气候与环境决策日益需要跨异构输入进行推理,包括网格化物理数据、卫星图像、地理空间上下文和模拟器输出。天气与气候基础模型能够很好地预测,但无法以语言形式进行交互式推理;而大语言模型(LLM)能在语言层面推理,却无法直接操作高维地球系统数据。因此,地球科学中真实的科学工作流仍未得到充分支持。我们提出了TerraBench——一个面向接地地球科学推理的基准测试,它构建于TerraAgent之上——一种ReAct风格的可执行框架,将推理、工具调用和观察交织在一起,将LLM规划与环境检索、地理空间处理、模拟以及基于工件的计算等科学工具相结合。TerraBench首次将地球观测图像、网格化数据、GIS推理与模拟分析统一到单个可执行接口中,而以往的基准测试将这些能力分散在狭窄的独立任务中。它也是该领域首个将过程级工具使用指标与容差感知数值评分配对的工作。该基准包含403个覆盖三个赛道(基础、模拟接地、文档接地验证)和八个应用领域的广泛智能体任务,包含约24,500个经过验证的执行步骤。该基准经过严格筛选和完善:人工审核后仅保留了50.9%的提议样本,而其中74.4%需要多次执行才能最终确定。经验上,TerraBench暴露了当前最强模型的局限性。表现最好的前沿模型(Claude Sonnet 4.6)仅达到59.2 ToolUseScore和22.9 Hit@tol,而最强的开放权重模型(Qwen3.5-35B)落后至40.0和5.9。这一差距主要由参数和数值接地失败导致,而非工具选择错误;在所有模型中,超过84%的数值答案落在可接受误差范围之外。这些结果表明,可靠的地球科学智能体必须超越工具访问,协调异构工作流,精确参数化工具,并保留工件溯源。我们的代码可在TerraBench (https://github.com/Takerdat23/TerraBench) 上获取。 参见图注 图1:TerraBench概览。TerraBench围绕三个任务赛道、八个应用领域和四个推理层级组织。(左)基础赛道:用于可直接验证的多模态执行任务;(中)模拟接地赛道:用于干预和反事实模拟工作流;(右)文档接地验证赛道:用于重构或逼近已发表科学量。图中还显示了推理层级分布及各层级平均执行步数,体现了基准的深度。 ## 1 引言 大语言模型(LLM)激发了面向多步科学工作流的自主智能体开发(Yao et al., 2023; Mialon et al., 2023; Ashraf et al., 2025)。在环境科学领域,诸如Zephyrus等系统表明,LLM能够与气象数据集和模拟器交互(Varambally et al., 2025)。然而,当前的天气智能体和诸如OpenEarthAgent(Shabbir et al., 2026)和ThinkGeo(Shabbir et al., 2025)等地球观测(EO)基准,仍然很少评估智能体能否在统一、可审计的工作流中共同推理卫星图像、网格化环境数据、GIS上下文、模拟输出和文档接地证据。这一差距至关重要:没有统一的评估,关于地球科学智能体能力的声明无法跨系统比较,并且数值容差失败无法被检测,因为现有基准(Shabbir et al., 2026, 2025; Sheikh et al., 2026; Varambally et al., 2025)主要衡量工具轨迹对齐。实际的气候与环境问题本质上需要这些异构来源的工具接地融合,例如ERA5/CMIP6/C3S物理数据集和OpenStreetMap图层。为填补这一空白,我们引入了TerraBench——一个面向接地地球科学推理的基准测试,以及TerraAgent——一个可执行的工具增强框架。TerraAgent是一种ReAct风格的工具增强框架,它针对气候问题进行规划,调用领域专业科学工具,物化中间工件,并返回结构化、具有溯源依据的输出。基于此框架构建的TerraBench包含403个跨3个赛道、8个应用领域、77个子工具的可执行复杂任务,执行步骤近24,500步。与静态QA数据集不同,每个条目都是一个高信息量的可执行基准测试程序,具有结构化输出契约、规范推理轨迹、工具观察、支持工件和经过验证的最终答案。TerraBench明确分离了过程级和结果级评估。经验上,该基准对前沿模型和开放模型均具有挑战性:Claude Sonnet 4.6达到59.22 ToolUseScore、28.44 NumScore和22.88 Hit@tol,而报告的最强开放权重模型Qwen3.5-35B分别达到39.95、7.49和5.89。赛道层面和失败分析进一步表明,模拟接地任务尤其困难,主要失败模式包括错误参数值、错误工具排序以及超出容差的数值缺失。 总之,我们的贡献如下: - **一个新基准:TerraBench**,包含403个长周期可执行任务,近24,500个经过策展的步骤,覆盖三个赛道和八个应用领域,是首个将地球观测图像、网格化环境数据、GIS推理、确定性模拟和文档接地验证统一到单个可执行接口下的基准。 - **一个可执行框架:TerraAgent**,一种ReAct风格的可执行框架,拥有77个科学子工具,能产生可审计的推理轨迹和基于工件的输出(NetCDF、GeoTIFF、CSV、PNG),支持基线、干预和反事实场景下的可复现工作流。 - **一个细粒度评估协议**:一个容差感知的评估协议,将过程级工具使用熟练度与最终答案数值正确性解耦。我们的结果显示了一个系统性差距(例如,最强前沿模型的59.2 ToolUseScore对比22.9 Hit@tol),这是先前仅基于工具轨迹的评估无法检测到的。 表1:与相关地理空间、EO、气候及通用智能体基准的比较。列指示每个基准是否包含已部署的可执行工具环境、地球观测(EO)图像、网格化环境(Env.)数据、地理空间操作(GIS ops)、模拟/反事实任务、结构化数值评估、真实世界任务/查询以及混合人类+AI/半自动标注(Hybrid annot.)。✓=是,△=部分,✗=否。 ## 2 相关工作 **多模态智能体基准**。最近的LLM评估已日益从静态问答转向需要工具使用、长周期执行和证据接地决策的智能体任务。ReAct引入了交织推理-行动-观察的范式(Yao et al., 2023),后来的系统如HuggingGPT、Visual ChatGPT和MM-ReAct将工具增强推理扩展到更广泛和多模态的工具生态(Shen et al., 2023; Wu et al., 2023; Yang et al., 2023)。基准工作也遵循了类似轨迹:ToolBench、API-Bank和StableToolBench专注于API/工具调用(Qin et al., 2023; Li et al., 2023; Guo et al., 2024);VisualWebArena和MLGym强调现实的长周期执行(Koh et al., 2024; Nathani et al., 2025);通用智能体基准如GAIA、GTA和Agent-X评估真实世界助手任务、已部署工具使用和多模态步骤级推理(Mialon et al., 2023; Wang et al., 2024; Ashraf et al., 2025)。这些基准与我们的评估理念高度一致,特别是在它们关注工具接地和过程诊断方面。然而,它们并未针对气候特定的EO图像、网格化环境数据、GIS推理、模拟和文档接地验证的组合。TerraBench通过将智能体基准设计适应于统一的三赛道任务接口下的接地地球科学工作流,填补了这一空白。 **地球科学智能体基准**。近期工作引入了多模态数据集和用于天气、气候、EO和地理空间推理的智能体系统。Terra、ClimateIQA、WeatherQA和CLLMate将环境观测与文本、图像、遥感或基于ERA5的事件信息相结合(Chen et al., 2024, 2025; Ma et al., 2024; Li et al., 2025),而UnivEARTH和GeoHOP则向文档验证的EO问题和层次化地理空间推理迈进(Kao et al., 2025; Yuhang Yan et al., 2026)。同时,AutoClimDS、Zephyrus和HVR-Met将LLM与气候数据集、预报工具、模拟器和气象诊断工作流连接起来(Jaber et al., 2025; Varambally et al., 2025; Nguyen et al., 2024; Davenport et al., 2026; Tang et al., 2026)。ThinkGeo、GeoBenchX、OpenEarthAgent和Earth-Agent展示了工具接地的EO和GIS推理(Shabbir et al., 2025; Krechetova and Kochedykov, 2025; Shabbir et al., 2026; Feng et al., 2025)。然而,现有工作通常专注于EO感知、天气推理、地理空间工具使用或气候数据访问之一。而TerraBench则将EO图像、网格化环境数据、GIS推理、模拟和文档接地验证统一到一个基准之下。它还通过将过程级工具使用指标与容差感知的数值答案评分配对,扩展了先前的评估实践,而非仅依赖于工具轨迹评估或LLM作为评判的最终答案评估。这对于地球科学工作流尤其重要,因为最终输出是跨执行接地、模拟接地和文档接地任务的异构数值量。 参见图注 图2:智能体框架概览。TerraAgent接收用户问题、可选先验轨迹和结构化输出模式,然后在按领域组织的科学工具注册表上执行工具接地工作流。该框架同时返回结构化最终答案和带有支持工件的溯源证据轨迹。 ## 3 TerraAgent框架 TerraAgent是支撑TerraBench的可执行框架。它将开放性的气候与环境问题转化为可审计、工具接地的科学工作流。给定用户问题、上下文和结构化输出要求,TerraAgent规划工作流,调用领域特定工具,记录中间观察,物化工件,并返回结构化答案和证据轨迹。核心设计原则是将基于语言的规划与科学执行分离:模型协调工作流,而定量输出必须来自数据检索、地理空间处理、预报、模拟、可视化或显式计算,而非无支持的语言模型生成。如图2所示,TerraAgent围绕一个按领域组织的工具注册表构建,覆盖TerraBench所需的能力:再分析和环境数据检索、预报和季节性产品、卫星/EO处理、GIS和OpenStreetMap分析、确定性模拟、可视化、网络搜索以及用于辅助科学计算的执行服务器。预报栈包括学习型预报封装,如Pangu-Weather(Bi et al., 2022)和Aurora(Bodnar et al., 2025),以及季节性和验证工具。模拟栈包含跨越多个影响领域的确定性模拟器,包括AquaCrop作物-水分响应、DSSAT作物系统、CLIMADA事件影响估算、UTCI热应激评估、EnergyPlus建筑需求分析以及SUMO交通中断分析(Steduto et al., 2009; Jones et al., 2003; Aznar-Siguan and Bresch, 2019; Jendritzky et al., 2012; Crawley et al., 2001; Lopez et al., 2018)。总体而言,这些工具支持跨所有地球系统数据的全面工作流。 ## 4 基准创建 参见图注 图3:TerraBench的标注流程。所有样本均经过人工验证以确保准确性。 ### 4.1 任务分类法、模式与因果推理层级 TerraBench涵盖三个赛道:基础赛道(评估确定性执行)、模拟接地赛道(确定性模拟)和文档接地验证赛道(科学文档锚点)。覆盖八个环境领域,该基准用可执行基准程序取代了静态问答对。每个条目共享一个通用接口——一个自然语言问题配以结构化输出契约——并包含规范推理轨迹、支持工件和经过验证的最终答案。我们还按照四个推理层级对条目进行了标注。层级1-3改编自Pearl的因果层级(Pearl, 2009):关联性(层级1)、干预性(层级2)和反事实/回顾性推理(层级3)。我们i
相似文章
跨尺度科学挑战的AI智能体基准测试
介绍SciAgentArena,一个约200个任务的基准测试,用于评估真实科学研究中的AI智能体。发现智能体在明确指定的数据分析工作流程中表现有效,但在产生新颖见解和开放式探索方面存在困难。
TOBench:面向真实世界工具使用智能体的任务导向全模态基准
TOBench是一个新的基准测试,用于评估AI智能体在真实世界、任务导向的工具使用中的表现,涉及多模态输入和闭环验证。实验表明,像Qwen 3.5 Plus这样的顶级模型仅达到41%的成功率,远低于94%的人类基准,凸显了显著的差距。
WeaveBench:混合界面计算机使用代理的长时域真实世界基准测试
WeaveBench是一个用于在长时域真实世界任务中跨多种界面(GUI、CLI、代码)评估计算机使用代理的新基准测试。它揭示了当前模型仅达到41.2%的通过率,且仅基于结果的评分高估了性能,凸显了评估中的重大差距。
GeoNatureAgent Benchmark:跨前沿与开源权重基础模型的环境地理空间分析LLM代理基准测试
本文介绍了GeoNatureAgent Benchmark,这是首个通过结构化工具调用评估LLM代理在环境地理空间分析任务上表现的基准。它对18个类别的93项任务中的七个模型进行了评估,发现Claude Sonnet 4以60.8%的准确率领先,而DeepSeek V3.2等开源权重模型则提供了强大的性价比。
迈向可验证的自主数据科学:通过工具化推理解决不规则时间序列问答
介绍了IRTS-ToolBench,这是一个包含1,700个问题的基准测试,用于通过工具化推理评估大语言模型(LLM)和AI代理在不规则时间序列问答上的表现,涵盖13个领域的10种任务类型。