基于大型视觉-语言模型利用遥感影像进行建成环境推理

arXiv cs.CL 2026/05/12 04:00 论文

摘要

本文探讨了利用大型视觉-语言模型处理遥感影像以进行建成环境推理任务（如设计建议和风险识别）。研究评估了 InternVL 和 Qwen 等模型，突显了其在支持智慧城市决策和定量推理方面的潜力。

arXiv:2605.08404v1 公告类型：新论文摘要：本研究探讨了在智慧城市任务中使用大型语言模型（LLM）。其核心理念是利用遥感影像来刻画建成环境，包括设计建议、施工可行性评估、土地利用模式以及风险识别。我们考察了多空间尺度的遥感影像作为多模态语言建模的输入，并评估了其对建成环境相关推理的影响。此外，我们比较了包括 InternVL 和 Qwen 在内的最先进大型语言模型在生成建成环境建议时的准确性和可靠性。结果证明了将遥感影像与大型语言模型整合以辅助智慧城市及决策的潜力。

查看原文

查看缓存全文

缓存时间: 2026/05/12 06:44

# 摘要
来源：https://arxiv.org/html/2605.08404
《使用大型视觉-语言模型从遥感影像中进行建成环境推理》¹¹¹ 发表于2026年工业化建筑国际会议论文集。

董栋王*，Deepak Balakrishnan，Ravi Srinivasan 和沈浩王*

佛罗里达大学城市与区域规划系，佛罗里达大学M.E. Rinker, Sr. 建筑管理学校

[email protected], [email protected]

本工作探讨了在智慧城市任务中使用大型语言模型（LLMs）的潜力。核心理念是利用遥感影像来表征建成环境，包括设计建议、可施工性评估、土地利用模式和风险识别。我们考察了多空间尺度的遥感影像作为多模态语言建模的输入，并评估了它们对建成环境相关推理的影响。此外，我们比较了包括InternVL和Qwen在内的最新LLMs在生成建成环境建议时的准确性和可靠性。结果证明了将遥感影像与大型语言模型整合以辅助智慧城市和决策制定的潜力。

关键词：建成环境；大型语言模型；遥感

## 0pt引言

大型语言模型（LLMs）已成为解决跨领域广泛挑战的强大范式，在逻辑推理和推断方面表现出强大的能力。在此基础上，视觉-语言模型（VLMs）将这些优势扩展到多模态场景，在医学影像和遥感等应用中展现出有希望的性能。然而，其在建成环境理解方面的能力仍 largely 未被探索，缺乏足够的实证证据来证明其有效性，凸显了进一步研究的关键空白。

最近在遥感VLMs（RS-VLMs）[7 (https://arxiv.org/html/2605.08404#bib.bib442),13 (https://arxiv.org/html/2605.08404#bib.bib443),17 (https://arxiv.org/html/2605.08404#bib.bib490),21 (https://arxiv.org/html/2605.08404#bib.bib561)] 方面取得的进展，通过结合遥感影像和大型VLMs展示了有希望的推理能力。这些现有努力主要展示了LLMs的潜力。虽然RS-VLMs在图像描述和语义理解方面表现出色，但其数值推理能力仍 largely 未被探索，例如评估空间背景或计算城市密度指标。

定量推理可以促进建成环境指标的分析，如建筑密度、土地利用构成和绿化覆盖率，揭示可量化的地理空间模式。传统上，这些指标是通过耗时的管道计算的，结合GIS、遥感影像和人工注释，这需要大量的领域专业知识并限制了可扩展性。事实上，高分辨率遥感影像提供了城市可扩展且结构化的视觉表示，自然地包含丰富的建成环境和地理空间信息。通过遥感影像进行定量推理是接地定量推理的理想测试床，因为它需要多种推理能力，包括但不限于对象检测、比例估计、空间推理和组合数值推断。

在本工作中，我们调查了启用遥感的大型语言模型对建成环境的定量理解和估计的潜力，旨在支持高效的建筑能源规划。我们首先开发了一个大规模基准，通过视觉问答系统地评估定量推理，揭示了零样本推理的局限性。然后，我们使用有限的训练数据进行领域特定的微调，在建成环境估计方面实现了显著的性能提升，并展示了在可扩展能源规划应用中的强大潜力。最后，我们在关键因素上进行了敏感性分析，以突出当前方法的优势和局限性，为未来大型语言模型驱动的建筑能源分析提供见解。

这项工作的主要贡献是：

- •基准开发。我们设计了一个可扩展的基准，以评估大型语言模型在高效建成环境估计方面的潜力，应用于建筑能源规划和优化。该基准主要关注由遥感影像支持的定量推理任务。
- •全面的LLM评估。我们对最新的大型语言模型进行了广泛的评估，以评估它们在建成环境定量理解方面的高效推理能力。结果表明，在零样本设置下的直接估计存在明显的局限性。
- •建成环境分析的微调。我们进一步使用有限的训练数据进行了有针对性的微调，并证明了在多个大型语言模型上一致的性能提升。这些发现突出了数据高效适应在可扩展能源规划应用中的潜力。

## 0pt相关工作

### 能源的建成环境

人类活动和空间足迹塑造了城市建成环境中的能源消费模式[5 (https://arxiv.org/html/2605.08404#bib.bib586)]。能源需求与建成环境的强度和配置密切相关[22 (https://arxiv.org/html/2605.08404#bib.bib587)]。城市扩张和建筑密度增加提高了能源使用并加剧了城市热岛效应，导致更高的冷却需求[19 (https://arxiv.org/html/2605.08404#bib.bib589)]。相比之下，绿色区域有助于缓解热量积聚，尽管其有效性取决于空间排列以及与周围结构的整合[6 (https://arxiv.org/html/2605.08404#bib.bib588)]。其他因素，如路面和不透水表面，也通过影响热量保留和局部气候影响能源使用[6 (https://arxiv.org/html/2605.08404#bib.bib588)]。了解这些相互作用支持更高效的基础设施规划、改进的能源管理和可持续的城市发展。

### 遥感

遥感提供了一种有效的方法来扩展对人类足迹在广大空间范围内解释和建模。鉴于研究区域的广泛覆盖，遥感影像使基础设施和人类活动模式的一致性和区域级别表征成为可能，支持更明智的决策[18 (https://arxiv.org/html/2605.08404#bib.bib591)]。遥感影像的分析传统上依赖于一系列数字图像处理和技术。最近，大型语言模型的进步为增强这一过程引入了新的机会，新兴方法利用语言驱动的推理从影像中提取和解释有意义的足迹[8 (https://arxiv.org/html/2605.08404#bib.bib590)]。这些发展为研究规划和应用程序中更可靠和可扩展的建成环境特征表示提供了有希望的方向。

### 大型视觉-语言模型

大型语言模型（LLMs），如ChatGPT和LLaMA[16 (https://arxiv.org/html/2605.08404#bib.bib565)]的出现，显著推进了文本生成和推理能力，实现了更复杂的多模态理解。基于这一进步，最近的大型视觉语言模型将这些能力从特定领域的任务扩展到更通用的问题解决。诸如Qwen[1 (https://arxiv.org/html/2605.08404#bib.bib570)]和InternVL[3 (https://arxiv.org/html/2605.08404#bib.bib542)]等模型将视觉编码器和可扩展的视觉骨干与语言模型整合，以支持统一的多模态推理、改进的跨模态对齐和长上下文理解。这些进步进一步推动了遥感基础模型的发展[7 (https://arxiv.org/html/2605.08404#bib.bib442),13 (https://arxiv.org/html/2605.08404#bib.bib443),20 (https://arxiv.org/html/2605.08404#bib.bib450)]，加速了遥感图像分析的进展。

## 0pt基准开发

为了调查和展示大型语言模型在建成环境理解和建模方面的潜力，我们遵循标准管道构建了一个基准，包括数据收集、特征工程、视觉问答生成和人工验证，如图1 (https://arxiv.org/html/2605.08404#S3.F1)所示。

### 影像数据收集

我们整合了两个主要数据源：来自Mapbox的遥感影像[14 (https://arxiv.org/html/2605.08404#bib.bib554)]和来自OpenStreetMap（OSM）的土地利用空间统计[12 (https://arxiv.org/html/2605.08404#bib.bib553)]。数据根据美国人口普查局的Gazetteer统计按城市规模组织。我们使用美国Gazetteer文件中的城市中心坐标选择了335个最大的都会区。这些城市提供了多样且密集的城市环境，能够可靠地推导指标，同时为评估视觉-语言模型呈现复杂的场景。对于每个城市，我们定义了一个边界区域，并从Mapbox在缩放级别17（672×672像素）提取影像，每块覆盖约450 m×450 m。以每个城市为中心的4×4网格最多产生16张图像，捕捉周围的城市背景。我们从OSM获得了土地利用多边形，包括住宅、商业、工业和绿色相关类别（例如草地、森林、农田）以及在自然标签下的水体。这些空间注释用于推导表征城市结构和组成的建成环境指标。

参见标题图1：基准准备流程。
### 建成环境指标

我们仔细选择建成环境指标[15 (https://arxiv.org/html/2605.08404#bib.bib576),11 (https://arxiv.org/html/2605.08404#bib.bib560)]来表征城市基础设施的空间模式，重点关注与能源消费管理和大规模建筑开发密切相关的因素。这些指标捕捉了城市空间的结构组成和功能关系，包括建筑密度、地表覆盖率和自然与建成要素之间的平衡（表1 (https://arxiv.org/html/2605.08404#S3.T1)）。例如，建筑占地面积比例和不透水空间比例反映了开发强度和地表密封，这与热量保留和能源需求直接相关。绿地百分比和城市蓝地百分比代表了有助于热调节和缓解热量积累的生态组成部分。此外，基于比例的指标如蓝建成比、绿蓝指数和蓝绿比提供了关于建成结构与环境特征之间相互作用的见解，使对城市微气候动态有更全面的理解。总之，这些指标支持对城市形式如何影响能源消耗的系统分析，并为数据驱动的规划和可持续基础设施设计奠定了基础。

表1：本研究中使用的选定建成环境指标及其定义。
### 视觉问答

影像和相应指标通过图像-问题对链接。对于每张图像，生成多个问题，每个问题针对特定指标进行估计。所有问题均以多项选择格式设计，其中一个选项正确并伴有三个合理的替代方案。候选答案在合理范围内精心构建，而不是包含极端异常值，确保问题保持有效且具有挑战性，专注于定量推理而非简单的异常检测。总体而言，提出的基准数据集包含14,523张图像和101,661个视觉问答对，其中9,523张图像和66,661对用于训练，5,000张图像和35,000对保留用于测试。每张图像平均关联7个指标，平均问题长度为8.11个单词，提供了一个简洁但多样化的基准，用于评估定量推理能力。

## 0pt实验

### 训练配置

我们使用AdamW优化器微调模型，学习率为5×10⁻⁵，权重衰减为0.01。训练在四块NVIDIA B200 GPU上以批量大小为32执行，使用8步梯度累积。模型训练2个epoch，预热比例为总训练步骤的5%，随后是余弦或线性学习率衰减。对于参数高效适应，我们采用LoRA，秩r=32，缩放因子α=16，应用于注意力层（即查询和值投影）。所有实验均使用HuggingFace Transformers库在PyTorch中实现，使用混合精度（FP16）训练。

### 模型

我们选择了一组多样的最新VLMs，以评估它们在城市影像推理任务上的性能。通用模型包括LLaVA-1.6-7B[10 (https://arxiv.org/html/2605.08404#bib.bib541)]、InternVL-3-8B[4 (https://arxiv.org/html/2605.08404#bib.bib571)]、QwenVL-3-8B[2 (https://arxiv.org/html/2605.08404#bib.bib575)]和MGM-7B[9 (https://arxiv.org/html/2605.08404#bib.bib577)]，而特定领域模型包括GeoChat-7B[7 (https://arxiv.org/html/2605.08404#bib.bib442)]、VHM-7B[13 (https://arxiv.org/html/2605.08404#bib.bib443)]和Falcon-7B[21 (https://arxiv.org/html/2605.08404#bib.bib561)]，涵盖了各种架构、训练范式和多功能能力。这一选择范围包括优化指令跟随、空间推理、地理空间影像解释和通用多步视觉推理的模型。

### 性能结果

表2：VLMs在多项选择题上零样本推理的定量推理准确率（%）。表3：领域特定微调后VLMs在多项选择题上的定量推理准确率（%）。零样本推理仅比随机选择略有改进，尽管当提示包含明确的语义线索如“绿色”、“蓝色”或“百分比”时，性能略有提高。相比之下，微调产生了约90%的显著性能提升，突显了大型语言模型在准确和可扩展定量估计方面的强大潜力。特别是，诸如绿地百分比等指标始终实现最高的准确率，这可能是因为它们清晰的视觉语义和良好对齐的语言表示，促进了感知和数值解码。“百分比”等结构化术语的存在通过提供明确的定量目标进一步加强了模型性能。虽然更复杂的指标，如蓝绿比，由于依赖于更高层次的关系推理仍然相对具有挑战性，但微调后的整体改进表明这些局限可以得到缓解。综上所述，这些结果表明，通过适当的适应，大型语言模型可以有效捕捉和扩展对建成环境的定量理解。

另一个重要的观察结果是，当前的最新遥感模型并不一致地优于通用

基于大型视觉-语言模型利用遥感影像进行建成环境推理

相似文章

强化空间视觉语言模型中的双路径推理

检索、整合与综合：空间-语义接地潜层视觉推理

HyperGVL：大型视觉-语言模型在超图理解和推理中的基准测试与改进

AI能否像城市规划师一样推理？基于专业判断对大型语言模型进行基准测试

Flat-Pack Bench：通过家具组装评估大型视觉-语言模型的时空理解能力

提交意见反馈