AI能否像城市规划师一样推理?基于专业判断对大型语言模型进行基准测试
摘要
本文介绍了UPBench,这是一个基准测试,用于评估大型语言模型在城市规划知识方面的表现,涵盖四个知识支柱和五个认知层次。研究发现,模型在高阶分析任务上表现优于事实回忆,并识别出如监管幻觉和实践智慧缺失等认知局限。
arXiv:2606.11678v1 Announce Type: new
摘要:问题、研究策略与发现:大型语言模型(LLMs)的兴起为城市规划提出了一个关键问题:AI能够复制哪些形式的专业规划知识,哪些仍然需要人类判断?尽管AI工具在规划实践中越来越常用,但目前仍缺乏系统性的框架来测试它们是否能够具备规划专业知识核心的情境敏感性、价值意识和制度素养。本文提出城市计划基准(UPBench),这是一个领域特定的评估框架,通过一个4×5的矩阵(基于布鲁姆修订分类法的四个知识支柱和五个认知层次)来评估LLM的推理能力。通过对25个LLM进行自动评分和专家评审,我们发现了一条非单调的认知曲线:模型在高阶分析任务上的表现优于事实回忆和综合判断。这表明,通常被视为低阶的规划知识深受制度、管辖和时间背景的影响,使得LLM难以泛化。我们将这些局限性总结为四种认知诊断:监管幻觉(regulatory hallucination)、概念混淆(conceptual conflation)、邪恶问题瘫痪(wickedness paralysis)和实践智慧缺失(phronetic deficit)。
实践启示:研究结果支持规划中的差异化委托。LLM可以协助跨学科综合、文献综述、情景生成和初步政策分析。然而,它们在特定管辖法规、规范性冲突解决和情境敏感程序方面仍然不可靠。机构应要求对AI辅助的监管分析进行验证,同时规划教育应强调制度素养、规范性判断和情境敏感性。
查看缓存全文
缓存时间: 2026/06/11 13:40
# 人工智能能否像城市规划者一样推理?大型语言模型与专业判断的基准测试 来源:https://arxiv.org/html/2606.11678 ###### 摘要 问题、研究策略与发现 大型语言模型(LLM)的出现,给城市规划领域带来一个迫切的认识论问题:人工智能能够复现专业规划知识的哪些维度,而哪些维度又不可化约地属于人类?尽管在规划实践中AI工具的应用日益广泛,但我们仍缺乏系统性的评估框架来衡量这些系统是否能够以专业规划判断特有的情境敏感性、价值意识和制度素养进行推理。本文提出了Urban Planning Bench(UPBench),这是一个领域特定的评估框架,它通过一个4×5矩阵来评估LLM的推理能力,该矩阵涵盖四大知识支柱(城市规划原理、跨学科整合、规划治理与规划实践)以及改编自布鲁姆修订分类学的五个认知层级。我们通过结合自动评分与专家小组评估的双轨协议评估了25个LLM,发现了一个非单调的认知曲线:模型在较高级的分析任务上表现更强,而在看似较低级的事实回忆和综合判断上反而较弱。这一反直觉的发现表明,规划的“低级”知识实际上深深嵌入制度、管辖权和时间语境之中,因此难以通过模式概括策略来掌握。我们将这些局限性归纳为四种认知诊断——规制幻觉、概念混淆、困境麻痹与实践智慧缺陷——每一种都揭示了规划专业知识中抵制计算复制的特定维度。 ###### 实践启示 这些发现为规划从业者和教育者提供了一个基于证据的差异分派框架——确定哪些任务可以负责任地由AI增强,哪些任务则需要不可化约的人类专业判断。LLM在跨学科综合和广泛分析推理方面表现出能力,这表明其在文献综述、方案生成和初步政策分析中具有潜在的生产性增强价值。然而,它们在特定司法管辖权下的法规解释、规范性冲突解决以及情境敏感的程序应用方面表现出持续的无能——而这些任务正是规划实践智慧的核心所在。规划机构应对任何AI辅助的法规分析实施结构化验证协议,同时规划教育应从知识传递转向培养构成规划独特专业贡献的制度素养、规范性判断和情境敏感性。 ###### 关键词:人工智能;规划知识;专业判断;实践智慧;基准测试;大型语言模型;规划教育 ## 1 引言 长期以来,规划领域一直在应对一个基础性的学科问题:什么是独特的专业规划知识?Friedmann(1987)将其视为知识与行动之间的联结问题——确定规划师掌握了哪些知识,使其能够有意义地干预城市和区域的发展轨迹。Schön(1992a)将专业知识重新定义为行动中反思,而非应用科学——这是一种嵌入实践且抵制规则化的认知形式。最近,Flyvbjerg(2001)认为规划的核心智力贡献在于实践智慧(phronesis)——亚里士多德意义上的实践智慧,它依赖于具体情境,充满价值判断,且不可还原为技术程序。这一论点可以通过基于实践和关系取向的规划方法进一步延伸,这些方法将规划知识不仅理解为个体的认知拥有,而是通过具体实践、制度关系、物质环境以及多元行动者之间的互动而产生的(Davoudi, 2015; Healey, 2006; Hillier, 2007; McFarlane, 2011)。这种细微差别对于通用AI模型来说是难以捕捉的,因为它们主要基于脱离语境的文本模式进行训练,而非嵌入形成规划判断的那些社会、制度和物质关系之中。 然而,尽管经过数十年的理论提炼,这一争论仍主要局限于哲学与概念性探究。尽管我们有丰富的概念词汇来描述规划专业知识,但却缺乏实证工具来衡量规划师实际知道什么——以及关键的是,哪些维度的知识是独一无二的人类所特有的。这一空白由于大型语言模型(LLM)在全球规划实践中的迅速普及而被前所未有地凸显出来。LLM的主流应用将这个长期存在的认识论问题转变为一个对规划职业具有直接、生死攸关意义的实证探究。这些AI系统现在能够生成区划分析、综合公众意见、起草综合规划要素以及提出读起来颇具专业水准的政策建议(Sanchez, Brenman, & Ye, 2025; Sanchez, 2025)。当一台机器能产生表面看来类似于专业规划输出的文本时,真正的专业判断与模式匹配的流畅性之间的界限变得紧迫——这不仅关乎规划哲学,更关系到职业的日常实践、教育机构及其基本的民主问责性。 规划在面临这一挑战时并非孤例:医学界开发了Med-PaLM用于基准测试临床推理(Singhal et al., 2025),法律界构建了LegalBench用于评估法律判断(Guha et al., 2023)。关键的是,这两个领域都已建立起领域特定的评估框架,用以区分AI能做什么和不能做什么——而规划领域尚未完成这一基础步骤。这一差距因规划独特的学科背景而进一步放大:与医学(诊断推理遵循相对结构化的规程)或法律(判例提供了一个有边界的语料库)不同,规划直接运作于Rittel和Webber(1973)所称的“棘手问题”领域。在这里,问题没有明确的公式化界定,每一项干预都是“一次性操作”,解决方案并非对错分明,而是相对于有争议的价值而言更好或更差。 然而,迄今为止关于AI的规划学术研究要么停留在广泛的伦理评论层面,要么局限于狭窄的技术应用。许多学者描绘了AI在城市规划中的伦理图景,指出了关于偏见、透明度、民主问责以及职业判断被取代的担忧(Kitchin, 2016; Mittelstadt et al., 2016; Selbst et al., 2019)。他们的贡献是重要的,但主要停留在规范性层面:它定义了我们应当担忧什么,却没有提供实证框架来衡量AI在面对现实规划工作中的具体认知需求时实际能做什么和不能做什么。在技术端,新兴的研究将LLM应用于界定清晰的具体规划子任务:自动规划评估(Zheng et al., 2025)、关于上调区划政策的公众情感分析(Rong et al., 2025)、城市情景生成(Wang et al., 2026)、多智能体规划模拟框架(Ni et al., 2024),以及领域特定微调的规划模型PlanGPT,该模型在规划文本生成、法规文件起草和政策分析任务上优于通用LLM(Zhu et al., 2024)。这些研究共同表明,AI在特定、规则明确的子任务上能够取得强劲表现,但没有一项研究尝试评估AI在规划专业知识全范围上的能力。另一条线索则集中于计算边界明确的应用,如规划支持系统、城市模拟和数据驱动的城市分析(Batty, 2018; Geertman & Stillwell, 2004; Klosterman, 1997; Pelzer, 2017)。 然而,规划不仅仅是技术演练;它涉及情境化判断、沟通性推理、价值冲突以及在不确定性下的行动,正如规划理论和专业实践研究所强调的(Forester, 1989; Friedmann, 1987; Healey, 1997; Rittel & Webber, 1973; Schön, 1992a)。目前尚不完善的是,一个基于规划学科自身、用于评估AI能力覆盖规划专业知识全范围认知架构的综合性框架——这个框架能够区分LLM可以近似模拟的规划知识维度与那些目前仍然是人类所独有的维度。这一空白不仅仅是学术上的局限:缺乏这样的框架,使得整个规划行业在两个生存性方面都处于脆弱地位。首先,如果没有经过验证的评估框架,关于LLM在规划领域能力的相互矛盾的声明仍然主要是传闻性的,而非基于证据的(Chang et al., 2024)。规划师可能会在高风险任务上过度依赖AI,而其推理是不可靠的;或者不必要地拒绝LLM对常规程序性工作的支持,而后者本可以简化专业工作量(Dell'Acqua et al., 2023)。规划专业知识本身就是在重叠的制度与监管体系中运作的,其核心能力在于驾驭情境模糊性,而非应用固定规则(Rydin, 2007)。这表明当前AI在规划领域的局限性可能是结构性的,而不仅仅是发展阶段的。 其次,更根本的是,构建这样一个框架的过程迫使我们明确定义什么是专业的规划专业知识。无论AI工具如何持续演进,这一概念澄清本身都具有独立的学术价值。从这个意义上说,对AI进行基准测试并不仅仅是计算机科学中引入的技术性练习;它作为一个认识论的参考点,迫使规划领域明确化其自身的基础知识结构。事实上,系统性评估框架的概念对于规划学术界来说并不陌生,尽管“AI基准测试”这一术语尚未广泛采用。规划质量评估研究已建立了多维度的规范性标准来评估综合规划,采用一致的评分标准和编码员间信度程序,以判断其事实基础、目标设定、政策设计和实施机制(Berke & Godschalk, 2009; Lyles & Stevens, 2014)。例如,美国注册规划师协会(AICP)的考试将其内容组织为六个不同的实践领域,涵盖规划理论、城乡规划管理与法规、规划相关知识以及技术实践(AICP, 2023)。这种基于实践的评估结构显示出显著的国际化趋同趋势:尽管各司法管辖区存在差异,中国、英国和澳大利亚的规划师资格认证内容也包含了这四个基本维度。 除了正式的规划评估和执照考试之外,规划学术研究长期以来一直将专业知识视为基于实践的反思性判断(Hoch, 2019; Willson, 2020)。后者将规划知识框架化为实用技艺而非规则遵循——这一特征挑战了传统的评估方法,但同时也隐含着可评估的工艺标准。规划教育学术进一步强化了这一评估逻辑。Clayton、Goodspeed及其同事(2025)确定了五种不同的教学方法来培养超越单纯分析技能的专业能力,包括设计思维、协作实践和伦理推理。每种方法都有其自身一套可评估的能力维度。Frank(2006)在回顾了三十年规划教育思想后,追溯了从知识传递模式向强调整合、判断和情境响应能力的基于胜任力的框架的演变。 我们的研究将这一评估传统扩展到了新的对象:LLM。它保留了规划的核心规范性承诺:多维评估、情境敏感性,以及认识到专业判断不能简化为任何单一指标。正如规划质量研究追问“什么是合格的专业规划?”,本研究提出了一个类似的问题:“AI如何才算像有能力规划者一样推理?”为了解决这个问题,我们开发了Urban Planning Bench(UPBench),这是一个领域特定的评估框架,用于根据规划专业知识的认知结构来评估LLM的推理能力。UPBench按照两个维度组织。第一个维度是一个知识架构,组织为四大核心支柱:城市规划原理、跨学科整合、规划治理与规划实践。该结构源自国际规划教育体系中的常见课程设计和专业执照考试(AICP, 2023; MNR, 2024; RTPI, 2023; PIA, 2023)。第二个维度采用改编自布鲁姆修订分类学的认知层级,选择性地使用从“记忆”到“评估”的五个层级,排除了“创造”,因为该框架侧重于评估专业判断而非开放式的创造性产出(Anderson & Krathwohl, 2001)。这个4×5矩阵创建了一个差异化的规划认知地图。它使得能够在所有规划知识领域和推理层级上,对LLM的性能进行系统的、同类之间的比较。 我们的研究使用双轨协议评估了25个LLM:结构化任务的自动评分和开放式推理的专家小组评估,并特别关注推理链——即知识检索、推理和论证的序列——这些序列区分了真正的理解与表层的模式匹配。本文对规划学术做出了三项贡献。首先,方法论上,它引入了一个全面、领域特定的评估框架,用于评估LLM在城市规划中的推理能力,该框架根植于学科自身的知识结构,而非未经学科适应而直接移植的通用计算机科学基准。其次,理论上,它利用AI的系统性失败模式作为实证透镜,揭示规划专业知识的认知架构。通过识别实践智慧的哪些维度抗拒计算复制,该研究加深了对什么使规划知识独特性的理解。第三,实践上,它为差异分派提供了基于证据的基础。差异分派是一种有原则的方法,用于界定哪些规划任务可以负责任地由AI增强,哪些任务需要不可化约的人类判断。这对专业实践、规划教育以及AI工具在规划机构中的治理具有直接意义。 本文的其余部分安排如下。第2节发展理论框架,将我们的方法置于实践智慧规划研究和规划质量评估的传统之中。第3节描述研究设计,包括UPBench的构建、评估协议和专家验证过程。第4节呈现跨知识领域、认知层级和失败模式的发现。第5节讨论这些发现的理论、实践和教育启示,特别关注规划实践中的人机边界。第6节以局限性和未来研究方向作结。 ## 2 理论框架 ### 2.1 规划作为实践智慧性实践
相似文章
PlanningBench: 生成可扩展且可验证的规划数据,用于评估和训练大型语言模型
PlanningBench 是一个用于生成可扩展、多样且可验证的规划数据的框架,以评估和训练大型语言模型。该框架采用约束驱动的合成流程,具备自适应难度控制和质量过滤功能。实验表明,前沿大语言模型在处理耦合约束时仍存在困难,而基于 PlanningBench 数据的强化学习能够提升模型在未见过的规划任务上的表现。
大型语言模型中的数学推理:基准、架构、评估与开放挑战
本综述综合了大型语言模型在数学推理方面的最新进展,涵盖了基准、架构、训练策略和评估协议。它指出了推理忠实性和基准偏差等关键挑战。
CreativityBench:基于可供性工具重新利用评估智能体创造性推理
本文介绍了 CreativityBench,这是一个用于评估大型语言模型基于可供性推理创造性地重新利用工具能力的基准测试。文章强调,尽管当前模型在通用推理方面表现出色,但在创造性问题解决方面仍面临困难。
大型语言模型中的交互推理评估:基于可执行游戏的分层基准
本文介绍了一个用于推理评估的多轮交互框架,其中大型语言模型需要查询隐藏环境并整合部分观察结果。该框架实例化为一个包含474个可执行游戏、跨五个难度级别的基准,展示了区分能力并揭示了推理差异。
PlanBench-V: 面向视觉语言模型的空间规划地图基准
本文介绍了PlanBench-V,这是首个用于评估视觉语言模型在空间规划地图解读方面能力的综合性基准,包括一个专家标注的数据集和一个四维度评估框架。实验显示取得了显著进展,但也突显了在面向实施的任务中持续存在的挑战。