Urban-ImageNet: 大规模多模态数据集与城市空间感知评估框架

Hugging Face Daily Papers 论文

摘要

Urban-ImageNet是一个大规模多模态数据集和评估基准,用于从社交媒体图像进行城市空间感知,支持场景分类、跨模态检索和实例分割任务,覆盖中国24个城市的61个城市地点。

我们提出Urban-ImageNet,这是一个大规模多模态数据集和评估基准,用于从用户生成的社交媒体图像进行城市空间感知。该语料库包含超过200万张公开社交媒体图像及配对的文本帖子,这些数据来自2019年至2025年间中国24个城市的61个城市地点,通过微博收集。数据集提供了控制规模的基准子集(1K、10K和100K规模)以及完整的2M语料库,用于大规模训练和评估。Urban-ImageNet基于HUSIC(层次化城市空间图像分类框架)进行组织,该框架定义了一个基于城市理论的10类分类体系。该分类体系旨在区分激活与未激活的公共空间、外部与内部城市环境、住宿空间、消费内容、人像以及非空间性社交媒体内容。Urban-ImageNet不将城市图像视为通用场景数据,而是评估机器感知模型能否捕捉城市研究核心的空间、社会和功能差异。该基准在一个标准化库中支持三个任务:(T1)城市场景语义分类、(T2)跨模态图像-文本检索、(T3)实例分割。我们的实验评估了代表性的视觉、视觉-语言和分割模型,结果显示在监督场景分类上表现强劲,但在跨模态检索和实例级城市对象分割上更具挑战性。一项多尺度研究进一步考察了在平衡训练数据从1K增加到10K再到100K图像时,模型性能的变化。Urban-ImageNet提供了一个统一的、基于理论的、多城市基准,用于评估AI系统如何跨模态、跨尺度和跨任务形式感知和解释当代城市空间。数据集和基准可访问:huggingface.co/datasets/Yiwei-Ou/Urban-ImageNet 和 github.com/yiasun/dataset-2。
查看原文
查看缓存全文

缓存时间: 2026/05/13 20:14

论文页面 - Urban-ImageNet:面向城市空间感知的大规模多模态数据集与评估框架

来源:https://huggingface.co/papers/2605.09936

摘要

Urban-ImageNet 提出了一个大规模多模态数据集和评估基准,用于从社交媒体图像中感知城市空间,该数据集基于层次化分类法组织,支持场景分类、跨模态检索和实例分割任务。

我们提出了 Urban-ImageNet,这是一个从用户生成的社交媒体图像中感知城市空间的大规模多模态数据集和评估基准。该语料库包含超过200万张来自微博的公开社交媒体图像及配对的文本帖子,覆盖2019-2025年间中国24个城市的61个城市地点,并设有1K、10K和100K规模的受控基准子集,以及用于大规模训练和评估的完整200万语料。Urban-ImageNet 依据 HUSIC(一种层次化城市空间图像分类框架)组织,该框架定义了一个基于城市理论的10类分类法。该分类法旨在区分激活与非激活公共空间、外部与内部城市环境、住宿空间、消费内容、人像以及非空间性的社交媒体内容。Urban-ImageNet 并非将城市图像视为普通场景数据,而是评估机器感知模型能否捕捉到城市研究中核心的空间、社会及功能差异。该基准在统一标准库内支持三个任务:(T1)城市场景语义分类、(T2)跨模态图文检索以及(T3)实例分割。我们的实验评估了代表性的视觉、视觉-语言和分割模型,结果显示在监督场景分类上表现强劲,但在跨模态检索和实例级城市物体分割上面临更大挑战。一项多尺度研究进一步考察了当平衡训练数据从1K、10K增加到100K图像时模型性能的变化。Urban-ImageNet 提供了一个统一、基于理论、多城市的基准,用于评估AI系统如何在多模态、多尺度和多种任务形式下感知和解释当代城市空间。数据集和基准可在以下地址获取:huggingface.co/datasets/Yiwei-Ou/Urban-ImageNet 和 github.com/yiasun/dataset-2。

查看arXiv页面 (https://arxiv.org/abs/2605.09936)查看PDF (https://arxiv.org/pdf/2605.09936)项目页面 (https://huggingface.co/datasets/Yiwei-Ou/Urban-ImageNet)GitHub1 (https://github.com/yiasun/dataset-2)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.09936)

在你的代理中获取此论文:

hf papers read 2605.09936

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型链接到此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.09936 以从此页面链接。

引用此论文的数据集1

Yiwei-Ou/Urban-ImageNet 查看器• 更新于约3小时前 • 3.67M • 204 (https://huggingface.co/datasets/Yiwei-Ou/Urban-ImageNet)

引用此论文的Spaces0

无Space链接到此论文

请在Space README.md中引用 arxiv.org/abs/2605.09936 以从此页面链接。

包含此论文的收藏集0

无收藏集包含此论文

请将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

对应用地球观测中组合图像检索的基准测试

Hugging Face Daily Papers

本文提出了一个地球观测中组合图像检索的统一基准,评估了视觉-语言骨干网络,并引入了一个以变化为中心的灾害监测数据集(xView2-CIR),强调了与基于属性检索相比的独特挑战。

CM-EVS:稀疏全景RGB-D位姿数据用于完整场景覆盖

Hugging Face Daily Papers

本文提出了COVER,一种无需训练的方法,用于将3D资产转换为具有完整场景覆盖和低冗余度的稀疏全景RGB-D位姿数据,并介绍了包含36,373个来自室内和室外场景的精选帧的CM-EVS数据集。