看见无形之物:图像分类到高级和抽象类别的调查
摘要
一份全面的调查论文,审视图像分类到高级和抽象类别的任务,通过对常识语义、情感语义、美学语义和解释语义的多学科分析,澄清了计算机视觉中高级语义的隐性理解。该论文指出了抽象概念图像分类中存在的持久挑战,强调了混合人工智能系统在处理复杂视觉推理任务中的重要性。
arXiv:2308.10562v2 Announce Type: cross
摘要:计算机视觉(CV)领域正逐步转向"高级"视觉理解任务,但这些任务的确切性质仍然不明确且含蓄。本调查论文通过系统地审视高级视觉理解研究,特别是自动图像分类中的抽象概念(ACs),来解决这一模糊性。我们的调查在三个主要方面做出贡献:首先,通过多学科分析和分类,澄清了计算机视觉中高级语义的隐性理解,分为不同的簇,包括常识语义、情感语义、美学语义和归纳解释语义。其次,它识别并分类了与高级视觉理解相关的计算机视觉任务,提供了对该领域内多样化研究领域的洞察。最后,它审视了计算机视觉如何处理价值观和意识形态等抽象概念,揭示了基于抽象概念的图像分类中的挑战和机遇。值得注意的是,我们对抽象概念图像分类任务的调查突出了持久的挑战,例如大规模数据集的有限效能以及整合补充信息和中级特征的重要性。我们强调了混合人工智能系统在解决抽象概念图像分类任务多方面性质中日益增长的相关性。总的来说,本调查增进了我们对计算机视觉中高级视觉推理的理解,为未来的研究工作奠定了基础。
查看缓存全文
缓存时间: 2026/04/20 08:30
# 看不见的东西:高层次和抽象类别的图像分类调查 来源:https://arxiv.org/html/2308.10562 Delfina Sol Martinez Pandiani[dsmp@cwi\.nl](mailto:[email protected])0000\-0003\-2392\-6300 (https://orcid.org/0000-0003-2392-6300) 博洛尼亚大学 计算机科学与工程系(DISI) 博洛尼亚,意大利 荷兰皇家数学与计算机科学研究院 人文中心数据分析 阿姆斯特丹,荷兰 Valentina Presutto 博洛尼亚大学 现代语言、文学与文化系(LILEC) 博洛尼亚,意大利 (2024) ###### 摘要 计算机视觉(CV)领域正逐渐转向"高层次"视觉意义建构任务,但这些任务的确切性质仍不明确且隐含。本调查论文通过系统审查高层次视觉理解研究来解决这一歧义,特别关注自动图像分类中的抽象概念(ACs)。本调查主要贡献包括三个方面:首先,通过多学科分析和分类,阐明计算机视觉中高层次语义的隐含理解,分类为不同的簇,包括常识、情感、美学和归纳解释语义。其次,识别和分类与高层次视觉意义建构相关的计算机视觉任务,提供对该领域多样化研究领域的洞见。最后,审查计算机视觉中如何处理价值观和意识形态等抽象概念,揭示基于AC的图像分类中的挑战和机遇。值得注意的是,我们对AC图像分类任务的调查突出了持续存在的挑战,例如大规模数据集效果有限以及整合补充信息和中层特征的重要性。我们强调混合人工智能系统在应对AC图像分类任务多面性方面日益增长的相关性。总体而言,本调查加深了我们对计算机视觉中高层次视觉推理的理解,为未来研究奠定基础。 **关键词:** 抽象概念、图像分类、社会价值、文化概念、视觉意义建构 ## 1. 介绍 视觉图像历来是传达抽象和具体思想的强大媒介,这一重要性在每天在社交媒体上分享的大量图像中显而易见(Edwards, 2014)。视觉内容的激增推动了计算机视觉(CV)的广泛研究,主要目的是自动化视觉数据的索引、检索和管理,其应用涉及社会学、媒体研究和心理学等多个学科(Joo et al., 2014; Arnold and Tilton, 2019)。计算机视觉的数据驱动方法将图像视为数据,这一做法至关重要,深度学习(DL)范式的最近转变进一步推动了这一发展,在图像分类、目标检测和图像生成等任务上取得了显著成就(Bagi et al., 2020)。 深度学习(DL)范式在计算机视觉(CV)中的显著成功导致了更复杂的需求,包括需要能够在"高语义层次"复制类人感知的工具(Hussain et al., 2017)。这包括使用计算机视觉根据高层次概念(称为抽象概念(ACs))对图像进行分类,这些概念已被证明在各种任务中具有重要价值,如情感分类(Cao et al., 2018; Mohammad and Kiritchenko, 2018a)、政治倾向检测(Joo et al., 2014)、美感评估(Gray et al., 2010)和个性特征推断(Segalin et al., 2017),所有这些都是通过原始视觉数据完成的。然而,机器视觉中对高层次视觉语义,特别是ACs的明确定义很少见。这种不明确性,加上历史上对基于低层次特征分析的物理目标检测的强调,通常导致高层次语义任务的结果与具体物体类别相比不那么令人印象深刻(Borghi and Binkofski, 2014)。此外,这些任务受到文化背景和人类感知偏差的影响,这重新定义了计算机视觉模型所期望的知识和理解深度。 本调查系统审查计算机视觉研究,解决根据高层次语义单位自动分类视觉数据的挑战。我们阐明图像背景下什么构成"抽象"或"高层次"语义,并识别与这些语义相关的计算机视觉任务和自动检测方法。专注于基于抽象概念的图像分类(AC图像分类),特别是在静止图像中,我们进行全面的最先进技术概述。这包括: 1. **高层次语义单位**:识别和聚类高层次语义单位,整合来自认知科学、视觉研究、艺术史和计算机科学的见解。 2. **高层次计算机视觉任务**:调查计算机视觉领域以识别和聚类与高层次视觉意义建构相关的任务,同时审查常见方法和数据集。 3. **AC图像分类**:我们进行了明确处理静止图像中AC图像分类的工作的详细综述。 本工作的结构如下。第2章提供了对人类视觉理解中什么构成"完整"或"高层次"语义的跨学科检查和特征化。第3章描述了用于识别与计算机视觉领域中高层次语义相关的工作的方法。第4章调查和分类与高层次视觉理解相关的计算机视觉任务和工作,促进发现隐含处理ACs的计算机视觉研究。第5章进行了与AC图像分类任务类似的计算机视觉工作的彻底调查。第6章呈现可能与AC图像分类任务相关的数据集。调查的含义和贡献在第7章中讨论。最后,第8章提供了结论性意见。更多详情可在专业GitHub仓库中获得。¹¹https://github.com/delfimpandiani/seeing_the_intangible. 访问日期:2024年2月。 ## 2. 定义高层次视觉语义 ### 2.1 三层语义  **图1**:视觉语义层次的三个层级 视觉理解通常被描绘为一个多层过程,揭示了三个不同的语义水平。低层次涉及原始或基本特征,中层次涵盖单个物体、人物和区域。相反,高层次仍然定义不清且探索不足。 在各种领域和应用中,包括认知科学、计算机视觉、基于内容的图像检索(CBIR)和视觉研究中,感知和解释视觉意义涉及多层过程这一概念是一个共识观点。这种多层性质在Hare等人(2006)的开创性论文中得到强调(Hare et al., 2006),该论文讨论了Smeulders关于计算机视觉中"语义鸿沟"的想法(Smeulders et al., 2000)。本文还强调了图像中不同意义层的常见做法,这一概念在CBIR中一直是关键的。我们深入研究了其中几种多层方法,从Panofsky(1955)(Panofsky and Drechsel, 1955)、Shatford(1986)(Shatford, 1986)、Greisdorf和O'Connor(2002)(Greisdorf and O'Connor, 2002)、Eakins(2000)(Eakins, 2000)、Jorgensen(2003)(Jörgensen, 2003)、Hare等人(2006)(Hare et al., 2006)和Aditya等人(2019)(Aditya et al., 2019)的著作中汲取见解。 这项探索揭示了一个普遍的类比,其中三个语义层次用于划分人类视觉理解过程:一个"低层次"、一个"中层次"和一个"上层"或"高层次"层次,对应于增加的复杂性、可变性和主观性(见图1)。这些方法中的大多数使用金字塔类比表示这些层来说明分层结构。 通过对每个基础工作分配给各层的语义元素的彻底分析,我们注意到在低层次和中层次中识别和同意语义单位方面存在共识。然而,这种共识没有延伸到最顶层。在底部,"低层次"层(图1中以浅蓝色描绘)包含原始或基本特征,如区域、边缘、纹理、颜色、形状和纹理。向上移动到"中层次"层(图1中以浅紫色描绘),该层级容纳了诸如物体、人物、区域和地点等语义实体。大多数计算机视觉研究集中在这一层上,强调物体识别和图像分割。相反,语义的"高层次"层(图1中以深紫色描绘)仍然细节较少且一致性较低。这个最顶层,通常与"完整语义"的概念相关联,缺乏明确和一致的定义,以及对什么类型的语义单位属于它的特征化。相反,似乎存在关于可能驻留或被构想在这一层内的内容种类的隐含共识。在我们的分析中,这一层既难以捉摸又意义重大,类似于关于视觉语义的"冰山一角",促使我们更精确地定义它。 ### 2.2 冰山一角:上层视觉语义 图像可能被寻求"基于其整体内容或信息,而不是通过其描绘某些特征所嵌入的信息"(Enser and Enser, 1999, p. 39)。大多数尝试命名和表征这种整体内容如何产生的工作因此以分层方式进一步远离原始或基本特征,以到达被称为不同名称的语义金字塔的"最高"层:图像学层(Panofsky and Drechsel, 1955)、高层次理解(Jörgensen, 2003)、抽象内容(Shatford, 1986)、抽象属性(Eakins, 2000)、主观信念(Greisdorf and O'Connor, 2002)、高层次语义(Aditya et al., 2019)或完整语义(Hare et al., 2006)。  **图2**:冰山一角:对视觉语义金字塔顶层的更深入特征化 通过对与这个上层语义层相关的语义实体的多学科探索,我们已识别了四个不同的知识簇。 建立跨学科对高层次语义的共同理解的困难的一部分在于,相比其他层次,人类的高层次理解认知上日益复杂。复杂的认知过程,包括抽象、转喻传达、晦涩、印象、原型位移(Greisdorf and O'Connor, 2002)、内涵(Hare et al., 2006; Shatford, 1986)、唤起和综合直觉(Panofsky and Drechsel, 1955)被认为是在这种"高度抽象"的层次上理解视觉语义的关键工具。然而,一般认为使用典型的自动图像理解和索引方法来把握它们在实践中很难。因此,这一最高级别的图像意义或内容解释的抽象被视为基于内容的图像检索技术应用的"看似不可克服的障碍"(Enser and Enser, 1999)。 除了认知复杂性,主观性是表征和自动识别该层内语义单位时的另一个挑战性方面。Shatford的广泛引用的见解简洁地总结了这一概念:"...图像资源的喜悦和沮丧在于一张图片对不同的人可能意味着不同的事情"(Shatford, 1986, p. 42)。此外,一张图片不仅可以向各种人传达不同的意义,还可以向同一个人在不同的背景或不同的时间传达不同的意义。与这一观点相一致,Greisdorf(Greisdorf and O'Connor, 2002)强调跨学科视角作为建模人类图像编目过程属性的基础方法的重要性,因为: > 这些属性往往通过超过图像索引阈值而逃避索引/编目过程,通过个别观众对给出观众可能与作为图像组成部分包括的物体相关联的分离原型的物体和物体特征的认知位移。这些与观众相关的影射性、印象主义和抽象主义概念需要通过某种检索机制来捕捉,以增强系统用户的检索效果。(Greisdorf and O'Connor, 2002, p. 11) 为了更好地理解和交流这些抽象语义,需要精确识别可能属于这一层的语义单位,并可能表征它们的相互关系。因此,我们系统地审查了引用的文献,以提供这个视觉语义顶点的更详细特征化(见图2)。我们将提到属于高层次视觉语义的元素类型分类为四个簇。
相似文章
Mind's Eye:面向多模态大模型的视觉抽象、变换与组合基准
研究者推出 Mind’s Eye,一项包含八道视觉认知任务的基准测试,显示顶级多模态大模型得分不足 50%,而人类可达 80%,暴露出视觉抽象、关系映射与心理变换方面的巨大差距。
大型基础模型中的视听智能
本综述论文全面回顾了大型基础模型中的视听智能,建立了统一的分类体系,综合了核心方法论,并概述了关键数据集、基准和开放性研究挑战。
在统一的多模态理解与生成中唤醒空间智能
本文介绍了 JoyAI-Image,这是一种统一的多模态基础模型,通过整合空间增强的多模态大语言模型(MLLM)与多模态扩散 Transformer(MMDiT),在视觉理解、文生图生成以及指令引导编辑方面取得了最先进的性能。
人工神经网络中的多模态神经元
OpenAI 在 CLIP 中发现了多模态神经元,它们在不同模态(视觉、符号、文本)中对同一概念做出响应,这与生物神经元的行为相似,解释了该模型在困难视觉任务上的鲁棒性。这项可解释性研究为我们理解视觉-语言模型如何组织和表示抽象概念提供了深刻见解。
使用能量函数学习概念
OpenAI 展示了一种利用能量函数的技术,使智能体能够从任务中学习和提取抽象概念(视觉、空间、时间、社交),然后在不需要重新训练的情况下,将这些概念转移到不同领域的相关任务中。该方法使用能量模型和神经网络来执行概念的生成和识别。