planning-knowledge

标签

Cards List
#planning-knowledge

AI能否像城市规划师一样推理?基于专业判断对大型语言模型进行基准测试

arXiv cs.CL · 2026-06-11 缓存

本文介绍了UPBench,这是一个基准测试,用于评估大型语言模型在城市规划知识方面的表现,涵盖四个知识支柱和五个认知层次。研究发现,模型在高阶分析任务上表现优于事实回忆,并识别出如监管幻觉和实践智慧缺失等认知局限。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈