了解现代视觉模型

已完成

CNN 多年来一直是计算机视觉解决方案的核心。 虽然它们通常用于解决前面所述的图像分类问题,但它们也是更复杂的计算机视觉模型的基础。 例如,对象检测 模型将 CNN 特征提取层与图像中感兴趣的 区域进行标识,以在同一图像中定位多个对象类。

变形金刚

几十年来,计算机视觉的大多数进展都是由基于 CNN 的模型的改进推动的。 然而,在另一个 AI 学科中-自然语言处理(NLP),另一种类型的神经网络体系结构,称为 转换器 使语言的复杂模型得以开发。 转换器的工作原理是处理大量数据,并将语言 标记编码为(表示单个字词或短语)作为基于矢量的 嵌入(数值数组)。 可以将嵌入视为表示一组维度,每个维度表示令牌的一些语义属性。 将创建嵌入内容,以便同一上下文中常用的标记定义比不相关的字词更紧密对齐的向量。

作为一个简单的示例,下图显示了编码为三维向量并在三维空间中绘制的一些单词:

3D 空间中令牌向量的示意图。

语义上相似的标记按类似的方向进行编码,从而创建语义语言模型,以便为文本分析、翻译、语言生成和其他任务生成复杂的 NLP 解决方案。

注释

我们只使用了三个维度,因为这很容易可视化。 实际上,转换器网络中的编码器会创建具有更多维度的矢量,基于线性代数计算定义令牌之间的复杂语义关系。 所涉及的数学是复杂的,与转换器模型的体系结构一样。 我们的目标是提供一个 概念性 理解编码如何创建一个封装实体关系的模型。

多模式模型

转换器的成功是构建语言模型的一种方式,导致 AI 研究人员考虑相同的方法是否对图像数据有效。 结果是开发了 多模式 模型,其中模型使用大量带有说明文字的图像进行训练,且不设固定 标签。 图像编码器基于像素值从图像中提取特征,并将其与语言编码器创建的文本嵌入相结合。 总体模型封装自然语言令牌嵌入和图像功能之间的关系,如下所示:

多模式模型的关系图,该模型封装了自然语言向量和图像特征之间的关系。

将其全部汇集在一起

现代视觉模型通过大量来自 Internet 的字幕图像进行训练,并包括语言编码器和图像编码器。 通常,用户将与基础模型进行交互和改编 的基础 模型。 基础模型是预先训练的常规模型,你可以在其中为专家任务生成多个 自适应 模型。 例如,可以调整基础模型来执行:

  • 图像分类:标识图像所属的类别。
  • 对象检测:查找图像中的单个对象。
  • 字幕:生成图像的合适描述。
  • 标记:编译图像的相关文本标记列表。

以弗洛伦斯模型为基础的模型图,建立了多个自适应模型。

多模式模型通常处于计算机视觉和 AI 的前沿,预计将推动 AI 实现的解决方案类型的进步。