Urban-ImageNet: 大规模多模态数据集与城市空间感知评估框架
摘要
Urban-ImageNet是一个大规模多模态数据集和评估基准,用于从社交媒体图像进行城市空间感知,支持场景分类、跨模态检索和实例分割任务,覆盖中国24个城市的61个城市地点。
查看缓存全文
缓存时间: 2026/05/13 20:14
论文页面 - Urban-ImageNet:面向城市空间感知的大规模多模态数据集与评估框架
来源:https://huggingface.co/papers/2605.09936
摘要
Urban-ImageNet 提出了一个大规模多模态数据集和评估基准,用于从社交媒体图像中感知城市空间,该数据集基于层次化分类法组织,支持场景分类、跨模态检索和实例分割任务。
我们提出了 Urban-ImageNet,这是一个从用户生成的社交媒体图像中感知城市空间的大规模多模态数据集和评估基准。该语料库包含超过200万张来自微博的公开社交媒体图像及配对的文本帖子,覆盖2019-2025年间中国24个城市的61个城市地点,并设有1K、10K和100K规模的受控基准子集,以及用于大规模训练和评估的完整200万语料。Urban-ImageNet 依据 HUSIC(一种层次化城市空间图像分类框架)组织,该框架定义了一个基于城市理论的10类分类法。该分类法旨在区分激活与非激活公共空间、外部与内部城市环境、住宿空间、消费内容、人像以及非空间性的社交媒体内容。Urban-ImageNet 并非将城市图像视为普通场景数据,而是评估机器感知模型能否捕捉到城市研究中核心的空间、社会及功能差异。该基准在统一标准库内支持三个任务:(T1)城市场景语义分类、(T2)跨模态图文检索以及(T3)实例分割。我们的实验评估了代表性的视觉、视觉-语言和分割模型,结果显示在监督场景分类上表现强劲,但在跨模态检索和实例级城市物体分割上面临更大挑战。一项多尺度研究进一步考察了当平衡训练数据从1K、10K增加到100K图像时模型性能的变化。Urban-ImageNet 提供了一个统一、基于理论、多城市的基准,用于评估AI系统如何在多模态、多尺度和多种任务形式下感知和解释当代城市空间。数据集和基准可在以下地址获取:huggingface.co/datasets/Yiwei-Ou/Urban-ImageNet 和 github.com/yiasun/dataset-2。
查看arXiv页面 (https://arxiv.org/abs/2605.09936)查看PDF (https://arxiv.org/pdf/2605.09936)项目页面 (https://huggingface.co/datasets/Yiwei-Ou/Urban-ImageNet)GitHub1 (https://github.com/yiasun/dataset-2)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.09936)
在你的代理中获取此论文:
hf papers read 2605.09936
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
无模型链接到此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.09936 以从此页面链接。
引用此论文的数据集1
Yiwei-Ou/Urban-ImageNet 查看器• 更新于约3小时前 • 3.67M • 204 (https://huggingface.co/datasets/Yiwei-Ou/Urban-ImageNet)
引用此论文的Spaces0
无Space链接到此论文
请在Space README.md中引用 arxiv.org/abs/2605.09936 以从此页面链接。
包含此论文的收藏集0
无收藏集包含此论文
请将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
对应用地球观测中组合图像检索的基准测试
本文提出了一个地球观测中组合图像检索的统一基准,评估了视觉-语言骨干网络,并引入了一个以变化为中心的灾害监测数据集(xView2-CIR),强调了与基于属性检索相比的独特挑战。
PixVerve:利用大规模高质量数据集推动原生UHR图像生成至100MP
本文介绍了PixVerve-95K,一个包含95K张超高清(100MP)图像及标注的大规模开源数据集,以及PixVerve-Bench,一个用于评估原生100MP文本到图像生成的基准,将现有T2I模型扩展到前所未有的分辨率。
@drfeifei: 我非常兴奋于这个适用于大规模生成模型新时代的视觉生成新基准数据集…
介绍GPIC(Giant Permissive Image Corpus),一个大规模数据集,包含1亿个VLM标注的图像-文本对用于训练,以及100万个用于基准测试的对,完全许可用于研究和商业用途。
基于大型视觉-语言模型利用遥感影像进行建成环境推理
本文探讨了利用大型视觉-语言模型处理遥感影像以进行建成环境推理任务(如设计建议和风险识别)。研究评估了 InternVL 和 Qwen 等模型,突显了其在支持智慧城市决策和定量推理方面的潜力。
CM-EVS:稀疏全景RGB-D位姿数据用于完整场景覆盖
本文提出了COVER,一种无需训练的方法,用于将3D资产转换为具有完整场景覆盖和低冗余度的稀疏全景RGB-D位姿数据,并介绍了包含36,373个来自室内和室外场景的精选帧的CM-EVS数据集。