environmental-analysis

标签

Cards List
#environmental-analysis

GeoNatureAgent Benchmark:跨前沿与开源权重基础模型的环境地理空间分析LLM代理基准测试

arXiv cs.AI · 5天前 缓存

本文介绍了GeoNatureAgent Benchmark,这是首个通过结构化工具调用评估LLM代理在环境地理空间分析任务上表现的基准。它对18个类别的93项任务中的七个模型进行了评估,发现Claude Sonnet 4以60.8%的准确率领先,而DeepSeek V3.2等开源权重模型则提供了强大的性价比。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈