environmental-analysis

#environmental-analysis

GeoNatureAgent Benchmark：跨前沿与开源权重基础模型的环境地理空间分析LLM代理基准测试

arXiv cs.AI ↗ · 5天前缓存

本文介绍了GeoNatureAgent Benchmark，这是首个通过结构化工具调用评估LLM代理在环境地理空间分析任务上表现的基准。它对18个类别的93项任务中的七个模型进行了评估，发现Claude Sonnet 4以60.8%的准确率领先，而DeepSeek V3.2等开源权重模型则提供了强大的性价比。

0 人收藏 0 人点赞

environmental-analysis

GeoNatureAgent Benchmark：跨前沿与开源权重基础模型的环境地理空间分析LLM代理基准测试

提交意见反馈