Vokenization：面向视觉与语言的多模态学习

ML at Berkeley 2021/04/16 12:30 论文

multimodal-learning vision-and-language weak-supervision nlp computer-vision berkeley

摘要

本文介绍了“Vokenization”，这是一种多模态学习技术，通过利用弱监督将视觉数据与语言标记联系起来，从而架起计算机视觉与自然语言处理之间的桥梁。文章将其与 GPT-3 和 BERT 等纯文本模型进行了对比，强调了视觉定位如何提升语言理解能力。

<p><em>作者：Aryia Dattamajumdar</em></p><p><strong>💡</strong> <em>计算机视觉遇见自然语言处理</em></p><p><em>Vokenization 是视觉监督语言模型与其相关图像之间的桥梁。在本博客文章中，我们将分两部分探讨 vokenization 流程以及模型的内部工作原理和分类机制：</em></p><ol><li><p><em>文章的第一部分适合初学者，概述了 vokenization、NLP 及其与计算机视觉（CV）的联系。</em></p></li><li><p><em>第二部分从流程开始，深入探讨模型的细节，重点介绍使用弱监督的方法（这更多是对论文内容的总结）。</em></p></li></ol><h1><strong>引言：人类的学习方式</strong></h1><p><em>人类是如何学习语言的？</em></p><p>当人类辨别词汇时，他们会通过听辨时间和频率上的差异来确定所说的内容。作为幼儿，我们通过被动<em>倾听</em>父母交谈来习得母语。随着年龄的增长，我们学会<em>阅读</em>、<em>书写</em>和与周围的人<em>交谈</em>。这四个组成部分（听、读、写、说）帮助我们与世界互动，并更好地理解周围环境。如果有一种方法能够将这些领域联系起来，使计算机模型能够像人类一样更好地理解语言，那会怎样呢？</p><p>❗️剧透预警：答案就是 vokenization（继续阅读以了解更多）</p><div><hr></div><h1><strong>计算机视觉与 NLP 背景</strong></h1><p>在深入了解 vokenization 是什么以及它是如何工作之前，让我们先了解一下 CV 和 NLP 中的一些关键概念和模型。</p><p>NLP 方面的突破使机器能够理解人类语言，包括文本预测、情感分析和语音识别等任务。一些著名的预训练 NLP 模型包括 OpenAI 的<strong>GPT-3</strong>（一种深度学习文本生成框架）和 Google 的<strong>BERT</strong>（它生成的嵌入表示提供了句子语境中的每个单词）。</p><p>计算机视觉和深度学习的进步通常来自于仅在一个领域处理数据。例如，StyleGAN 模型是一种类型的 GAN，用于在每一层卷积中调整图像的样式，它仅使用视觉图像数据进行训练。</p><div class="captioned-image-container"><figure><a class="image-link image2 is-viewable-img" target="_blank" href="https://substackcdn.com/image/fetch/$s_!UCez!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6aad1aad-d54b-49bb-bebe-d34621afe485_979x323.png" data-component-name="Image2ToDOM"><div class="image2-inset"><picture><source type="image/webp" srcset="https://substackcdn.com/image/fetch/$s_!UCez!,w_424,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6aad1aad-d54b-49bb-bebe-d34621afe485_979x323.png 424w, https://substackcdn.com/image/fetch/$s_!UCez!,w_848,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6aad1aad-d54b-49bb-bebe-d34621afe485_979x323.png 848w, https://substackcdn.com/image/fetch/$s_!UCez!,w_1272,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6aad1aad-d54b-49bb-bebe-d34621afe485_979x323.png 1272w, https://substackcdn.com/image/fetch/$s_!UCez!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6aad1aad-d54b-49bb-bebe-d34621afe485_979x323.png 1456w" sizes="100vw"><img src="https://substackcdn.com/image/fetch/$s_!UCez!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6aad1aad-d54b-49bb-bebe-d34621afe485_979x323.png" width="979" height="323" data-attrs="{"src":"https://substack-post-media.s3.amazonaws.com/public/images/6aad1aad-d54b-49bb-bebe-d34621afe485_979x323.png","srcNoWatermark":null,"fullscreen":null,"imageSize":null,"height":323,"width":979,"resizeWidth":null,"bytes":null,"alt":null,"title":null,"type":null,"href":null,"belowTheFold":true,"topImage":false,"internalRedirect":null,"isProcessing":false,"align":null,"offset":false}" class="sizing-normal" alt="" srcset="https://substackcdn.com/image/fetch/$s_!UCez!,w_424,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6aad1aad-d54b-49bb-bebe-d34621afe485_979x323.png 424w, https://substackcdn.com/image/fetch/$s_!UCez!,w_848,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6aad1aad-d54b-49bb-bebe-d34621afe485_979x323.png 848w, https://substackcdn.com/image/fetch/$s_!UCez!,w_1272,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6aad1aad-d54b-49bb-bebe-d34621afe485_979x323.png 1272w, https://substackcdn.com/image/fetch/$s_!UCez!,w_1456,c_limit,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6aad1aad-d54b-49bb-bebe-d34621afe485_979x323.png 1456w" sizes="100vw" loading="lazy"></picture><div class="image-link-expand"><div class="pencraft pc-display-flex pc-gap-8 pc-reset"><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container restack-image"><svg role="img" width="20" height="20" viewBox="0 0 20 20" fill="none" stroke-width="1.5" stroke="var(--color-fg-primary)" stroke-linecap="round" stroke-linejoin="round" xmlns="http://www.w3.org/2000/svg"><g><title></title><path d="M2.53001 7.81595C3.49179 4.73911 6.43281 2.5 9.91173 2.5C13.1684 2.5 15.9537 4.46214 17.0852 7.23684L17.6179 8.67647M17.6179 8.67647L18.5002 4.26471M17.6179 8.67647L13.6473 6.91176M17.4995 12.1841C16.5378 15.2609 13.5967 17.5 10.1178 17.5C6.86118 17.5 4.07589 15.5379 2.94432 12.7632L2.41165 11.3235M2.41165 11.3235L1.5293 15.7353M2.41165 11.3235L6.38224 13.0882"></path></g></svg></button><button tabindex="0" type="button" class="pencraft pc-reset pencraft icon-container view-image"><svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 24 24" fill="none" stroke="currentColor" stroke-width="2" stroke-linecap="round" stroke-linejoin="round" class="lucide lucide-maximize2 lucide-maximize-2"><polyline points="15 3 21 3 21 9"></polyline><polyline points="9 21 3 21 3 15"></polyline><line x1="21" x2="14" y1="3" y2="10"></line><line x1="3" x2="10" y1="21" y2="14"></line></svg></button></div></div></div></a></figure></div><blockquote><p>图 1：NVIDIA 研究人员创建的用于 GAN 的基于样式的生成器架构（StyleGAN），用于生成人工图像，有时看起来比原始图像更真实。</p></blockquote><p>同样，GPT-3 被认为是截至 2021 年最强大的语言模型，它仅使用文本数据进行训练。尽管如此，BERT 和 GPT-3 等语言模型受到了批评，因为仅从纯文本输入中学习词义是很困难的。这些自监督框架并未考虑来自外部视觉世界的信息。如果人类不是仅通过阅读来学习，那么为什么现有的语言模型完全基于纯文本自监督呢？</p><p>为了解决这一问题，AI 社区越来越有兴趣创建视觉-语言表示学习，利用图像信息来学习语言表示，反之亦然。</p><div><hr></div><h1><strong>✨Vokenization✨</strong></h1><p>到目前为止，视觉接地语言数据集和纯语言数据集之间存在隔阂。为了弥合这一差距</p>

查看原文

查看缓存全文

缓存时间: 2026/05/08 08:42

# 视觉分词（Vokenization）：视觉与语言的多模态学习来源：https://mlberkeley.substack.com/p/vokens *作者：Aryia Dattamajumdar* **💡 计算机视觉遇见自然语言处理** *视觉分词（Vokenization）是视觉监督下的语言模型及其相关图像之间的桥梁。在本文中，我们将分为两部分探讨视觉分词的过程、模型的内部工作原理以及分类机制：* 1. *本文的第一部分对初学者友好，概述了视觉分词、自然语言处理（NLP）及其与计算机视觉（CV）的联系。* 2. *第二部分从具体流程开始，深入探讨模型的细节，利用弱监督机制（主要概括论文内容）。* *人类是如何学习语言的？* 当人类区分词语时，他们会倾听时间和频率上的差异来确定所说的内容。作为幼儿，我们通过被动*倾听*父母交谈来习得第一语言。随着我们长大，我们学会与周围的人*阅读*、*写作*和*交谈*。这四个组成部分（倾听、阅读、写作和交谈）帮助我们与世界互动，并更好地理解周围环境。如果有一种方法可以将所有这些领域联系起来，让计算机模型像人类一样更好地理解语言，那会怎样？ ❗️剧透预警：视觉分词（继续阅读以了解更多）在深入探讨什么是视觉分词及其工作原理之前，让我们先了解一下计算机视觉和自然语言处理中的一些关键概念和模型。自然语言处理的突破性进展使机器能够理解人类语言，包括文本预测、情感分析和语音识别等任务。一些知名的预训练自然语言处理模型包括 OpenAI 的**GPT-3**（一种深度学习文本生成框架）和 Google 的**BERT**（生成代表句子上下文中每个单词的嵌入向量）。计算机视觉和深度学习的进步通常来自仅处理单一领域的数据。例如，StyleGAN 模型是一种类型的生成对抗网络（GAN），它在每个卷积层调整图像风格，但仅使用视觉图像数据进行训练。 [](https://substackcdn.com/image/fetch/$s_!UCez!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6aad1aad-d54b-49bb-bebe-d34621afe485_979x323.png) > 图 1：由 NVIDIA 研究人员创建的用于生成人工图像的 GAN 样式生成器架构（StyleGAN），有时生成的图像比原始图像看起来更真实。同样，被认为是截至 2021 年最强大的语言模型的 GPT-3 也仅使用文本数据进行训练。尽管如此，BERT 和 GPT-3 等语言模型仍受到批评，因为仅凭纯文本作为输入很难学习词语的含义。这些自监督框架并未考虑来自外部视觉世界的信息。如果人类并非仅通过阅读来学习，那么为什么现有的语言模型完全基于纯文本的自监督？为了解决这一问题，人工智能社区越来越关注创建视觉-语言表示学习，利用图像信息来学习语言表示，反之亦然。目前，基于视觉的语言数据集和纯语言数据集之间存在差异。为了弥补这一差距，人们开发了一种名为视觉分词（Vokenization）的新技术。与 OpenAI 的 DALL-E 和 CLIP 等其他图像-文本神经网络在自然语言处理方面的突破一样，视觉分词是视觉语言多模态建模领域的最新进展之一。 “视觉分词”（Vokenization）这个名字源于视觉（Vision）和令牌（Tokens）的组合，形成了视觉令牌（Vokens）。视觉令牌是一张与给定语言令牌相对应的图像，可以被视为令牌的可视化表示。 [](https://substackcdn.com/image/fetch/$s_!Dgse!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe040a5bf-1980-4ad1-af6f-44893cb9eb92_1576x872.jpeg) > 图 2：模型生成的视觉令牌的可视化，模型分类哪个视觉令牌与语言令牌对应。 *视觉分词*利用视觉信息监督语言学习。它通过将语言令牌上下文映射到视觉令牌（即令牌的相关图像），将多模态对齐外推到纯语言数据。图像和令牌的嵌入分别从两个相应的深度神经网络中检索，然后进行对齐。视觉分词技术的创新之处在于，它不仅预测语言令牌，还预测图像令牌，这是原始 BERT 模型无法生成的。此外，无需更改架构，预训练的 BERT 模型可以在视觉分类任务上进行训练，从而在情感分类等纯语言任务上获得性能提升。 [](https://substackcdn.com/image/fetch/$s_!s9OE!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fac40279a-f290-44a2-bdff-108092d5953b_2608x810.png) > 图 3：语言令牌和相关图像的组合格式。语言模型通过相关图像（称为视觉令牌）进行视觉监督。视觉分词过程生成这些上下文令牌图像对的数据集。平均而言，带有视觉分类任务的 BERT 模型比没有视觉分类任务的 BERT 模型性能高出约 3% 的平均值（对于平均值来说，这是一个巨大的提升！）概而言之，视觉分词过程是一个上下文令牌到图像的匹配模型。当前面临的挑战： 1. 基于视觉的语言偏好简短且具有指导性的描述，因此其句子长度和活跃词的分布与其他类型的语言不同。 2. 自然语言中的大多数词语并非基于视觉（在英文维基百科中仅占 28%）。我们通过两部分来解决这两个挑战： **挑战 1** - 我们使用视觉分词方法，其中使用相对较小的数据集来训练视觉分词器（Vokenization processor）。然后我们为大型语言语料库（如英文维基百科）生成视觉令牌。随后，视觉监督下的语言模型将接收来自大型数据集的输入。这有助于弥合不同数据源之间的差距，从而帮助解决挑战 1。 **挑战 2** - 一些非基于视觉的令牌在考虑句子上下文的情况下可以映射到相关图像。视觉分词器内部的上下文令牌-图像匹配模型通过查看上下文将令牌映射到图像，从而使我们能够为英文维基百科生成视觉令牌。传统的语言模型预测语言令牌。但通过视觉分词，除了预测语言令牌外，还预测图像令牌。图像令牌是从为图像预定义的固定词汇表/视觉令牌集合中进行分类的。本质上，语言模型拥有一个包含不同令牌的词汇表，这些令牌被映射到嵌入表，然后映射为对其他令牌的预测。 **输入：**模型接收一个句子（由令牌序列组成）和一张图像作为输入。 **输出**：图像与句子上下文中每个令牌之间的相关性得分 [](https://substackcdn.com/image/fetch/$s_!1zoB!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fb05cb65b-91ab-40a9-bdcb-feb3e7e8f82d_325x397.png) > 将语言令牌映射到正在分类的图像示例。视觉 BERT 模型分类哪个视觉令牌对应于语言令牌。例如，在上图示例 1 中，说话的语言令牌匹配为手中的电话。考虑到图像上下文，模型在整个句子和图像上执行交叉注意力机制以预测视觉令牌。上图显示了示例 1 和示例 2 中的语言令牌“by”。然而，在第一句的上下文中（示例 1），“by”的图像令牌是有人在打电话，而示例 2 中“by”映射为公园里的长椅。这种视觉信息有助于模型进一步区分上下文中的词语，并带来改进。首先我们获取一个视觉令牌数据集，然后可以训练实际的视觉分词器。警告：下一部分将深入探讨模型细节。让我们深入了解这一程序的细节吧！视觉分词过程涉及为句子中的每个令牌 *wi* 分配其相关的对应图像，即视觉令牌 *v(wi; s)*： \$s = (w\_1,w\_2,\dots,w\_n)\$ 但是，他们不是使用生成模型创建图像，而是从包含图像词汇的有限图像集中检索图像。 **评分函数：** **有限图像集：** *x∈X* 由参数 theta 定义的评分函数衡量图像 *x* 在句子 *s* 等上下文中与给定令牌 *wi* 的接近程度。我们可以将这种评分函数建模为语言特征表示 *fθ(wi; s)* 和视觉特征表示 *gθ(x)* 的内积，如下所示： [](https://substackcdn.com/image/fetch/$s_!1u8u!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F9d125b23-eadf-4245-9eba-02697b4734e9_806x100.png) 语言编码器使用预训练的 BERTBASE 模型，将每个离散令牌 {*wi*} 上下文嵌入为隐藏输出向量 {*hi*}。接下来，将多层感知器 *wmlp*θ 应用于隐藏输出 *hi*。 **{*****hi*****}**： \$h\_1,h\_2,\dots,h\_n=bert(w\_1,w\_2,\dots,w\_n)\$ **语言特征表示：** \$f\_\\theta(w\_i;s)=\{w\\_mlp\_\\theta(h\_i) \\over \\lVert w\\_mlp\_\\theta(h\_i) \\rVert\}\$ 对于视觉特征，视觉编码器从预训练的 ResNeXt 中提取 *e*（视觉嵌入）。然后应用多层感知器 *xmlpθ* 和 L2 归一化层，如下所示：*e=ResNeXt(x)*。 **视觉特征表示：** \$g\_\\theta(x)=\\frac\{x\\_mlp\_\\theta(e)\}\{\\lVert x\\_mlp\_\\theta(e) \\rVert\}\$ 假设评分函数的最优参数为 *θ∗*。因此，句子中与令牌相关的视觉令牌是使相关得分 *rθ∗* 最大化的图像。 [](https://substackcdn.com/image/fetch/$s_!ijid!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F154397d5-c947-479d-b5a9-8a0ddc635fa3_1932x202.png) 这类似于 OpenAI 最近在 CLIP 上的工作，该工作将图像分类转化为文本相似性问题。 [](https://substackcdn.com/image/fetch/$s_!X2gr!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fce8236d3-4010-4cb9-b13d-a926841672e9_332x301.png) > 上图是 OpenAI CLIP 的一些代码。注意图像嵌入和文本嵌入之间内积的相似性。视觉分词模型使用弱监督进行训练，它使用有监督学习损失函数，但对数据具有噪声标签，如编程标记。这里为了构建弱监督数据集，使用了包含图像和句子的图像描述数据集。这些数据集由句子-图像对 *\{(sk,xk)\}* 组成，其中句子 *sk* 描述图像 *xk* 中的视觉内容。 **正令牌-图像对：** **负令牌-图像对：** 在视觉分词训练中，描述中的每个令牌都被视为与图像匹配。只要 *x′≠x*，我们可以随机采样另一张图像 *x′*。然后在分类任务中，铰链损失函数设有一个边际 *M*。这用于优化权重 θ，使得正图像-令牌对的得分至少比负对令牌高出边际值。为了可视化流程（图 4），分词器在文本语料库上运行以产生令牌列表。然后将令牌输入语言编码器，同时视觉编码器（ResNet 模型）处理每一张图像。然后，为了找到句子中给定令牌的最佳匹配图像，评分函数高效地在令牌-图像对上运行，使用诸如最近邻（Nearest Neighbor）之类的算法。该过程通过检索与查询编码最相似的编码，成功地将图像匹配到令牌。 [](https://substackcdn.com/image/fetch/$s_!gBLG!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F155eacbf-be57-4c85-a5b2-b378026bc988_332x197.png) > 图 4：为了实现视觉分词过程，对于语言语料库中的令牌，使用类似最近邻算法从图像集中上下文检索图像作为视觉令牌。这些生成的令牌用于从视觉监督到语言模型 1. 模型接收一个句子（由令牌组成）和一张图像作为输入。 2. 将句子中的每个令牌分配给其对应的相图像 3. 句子在视觉分词器中成为令牌序列，并在句子上下文中输出令牌和图像的相关性得分。 ---> ## 结果： #### 表 1（带和不带视觉分类的预训练模型）： [](https://substackcdn.com/image/fetch/$s_!475J!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F13e6affa-8fa3-40f1-a9c6-223c1f2f84fa_1270x390.png) > 在上表中，模型要么是通过带有额外视觉分类任务的掩码语言模型预训练的（BERT6L/512H+Voken-cls, BERT12L/768H+Voken-cls），要么仅仅是掩码语言模型（BERT6L/512H 或 BERT12L/768H）。视觉分词过程的结果展示了基于视觉的监督带来的有希望的提升，显示出比纯语言任务更好的性能。例如，在上表的 SST-2（情感分类）中，添加视觉分类时约有**3%****的改进**。这表明与纯自监督语言模型相比有了改进。基于视觉的学习信号非常有帮助，视觉分词肯定有更多的应用场景😊 ## 应用：结合视觉和语言学习的理念将在应用中流行，特别是医疗成像领域——用于自动化医疗图像诊断的视觉表示。例如，这篇论文《对比学习医学视觉表示来自配对图像和文本》(https://https//paperswithcode.com/paper/contrastive-learning-of-medical-visual) 探索了带有简短文本描述的放射图像，其中语义分割非常耗时。这种视觉分词技术有可能引导这些表示并使用文本信息改进自动化医疗成像。视觉令牌和其他基于视觉的语言系统的应用还有许多其他可能性（列举如下）： - 视觉-触觉用于机器人 - 视觉-音频 - 语言-音频随着自然语言处理和计算机视觉的不断进步，未来肯定充满光明！ #### 来源： - 原始研究论文 (https://arxiv.org/pdf/2010.06775v1.pdf)：Vokenization: Improving Language Understanding with Contextualized, Visual-Grounded Supervision - 什么是视觉分词及其对 NLP 应用的意义 (https://analyticsindiamag.com/what-is-vokenization-image-text-nlp/) - MIT Technology Review (https://www.technologyreview.com/2020/11/06/1011726/ai-natural-language-processing-computer-vision/)：这可能带来常识性人工智能的下一个重大突破 #### 关于本文的讨论 ### 准备好阅读更多了吗？

Vokenization：面向视觉与语言的多模态学习

相似文章

通过多模态突破纯文本瓶颈？

当视觉为声音代言

JoyAI-VL-Interaction: 实时视觉-语言交互智能

CaVe-VLM-CoT：一个可解释的视觉-语言模型框架

利用视觉-语言模型检测教育视频中的注意力

提交意见反馈