planning-knowledge

#planning-knowledge

AI能否像城市规划师一样推理？基于专业判断对大型语言模型进行基准测试

arXiv cs.CL ↗ · 2026-06-11 缓存

本文介绍了UPBench，这是一个基准测试，用于评估大型语言模型在城市规划知识方面的表现，涵盖四个知识支柱和五个认知层次。研究发现，模型在高阶分析任务上表现优于事实回忆，并识别出如监管幻觉和实践智慧缺失等认知局限。

0 人收藏 0 人点赞