了解 Azure AI 视觉图像分析功能

已完成

Azure AI 视觉的图像分析功能可以自定义使用,也可以直接使用。 不需要自定义的一些功能包括:

  • 使用标题描述图像
  • 检测图像中的常见对象
  • 标记视觉特征
  • 光学字符识别

使用标题描述图像

Azure AI 视觉能够分析图像、评估图像中的对象,并生成图像的可读说明。 例如,请考虑下图:

一个在滑板上的人的图示。

Azure AI 视觉为此图像生成以下标题:

跳上滑板的人

检测图像中的常见对象

Azure AI 视觉可以识别图像中的数千个常见对象。 例如,用于检测之前讨论的滑板图像中的对象时,Azure AI 视觉将返回以下预测:

  • 滑板 (90.40%)
  • 人 (95.5%)

预测包括一个置信度分数,表示模型对其描述的内容与图像实际内容相符的信心程度。

除了检测到的对象标签及其概率外,Azure AI 视觉还返回 边界框 坐标,这些坐标指示检测到的对象顶部、左侧、宽度和高度。 可以使用这些坐标来确定每个对象在图像中检测到的位置,如下所示:

滑板运动员的示意图,其中包含检测到的对象周围的边界框。

标记视觉特征

Azure AI 视觉可以根据图像的内容为图像建议 标记。 标记与图像关联为元数据。 标记汇总图像的属性。 可以使用标签为图像编制索引,并结合一组关键术语来创建搜索解决方案。

例如,为滑板图像返回的标记(具有关联的置信度分数)包括:

  • 体育(99.60%)
  • 人(99.56%)
  • 鞋类(98.05%)
  • 滑冰(96.27%)
  • 板类运动 (95.58%)
  • 滑板设备(94.43%)
  • 服装(94.02%)
  • 墙(93.81%)
  • 滑板(93.78%)
  • 滑板运动员 (93.25%)
  • 个人体育(92.80%)
  • 街头特技(90.81%)
  • 余额 (90.81%)
  • 跳跃 (89.87%)
  • 体育装备(88.61%)
  • 极端运动(88.35%)
  • 翻板动作(88.18%)
  • 特技(87.27%)
  • 滑板 (86.87%)
  • 特技表演者(85.83%)
  • 膝盖(85.30%)
  • 体育(85.24%)
  • 长板 (84.61%)
  • 长板 (84.45%)
  • 骑行 (73.37%)
  • 滑冰 (67.27%)
  • 空气 (64.83%)
  • 年轻(63.29%)
  • 户外(61.39%)

光学字符识别

Azure AI 视觉服务可以使用光学字符识别(OCR)功能检测图像中的文本。 例如,请考虑杂货店中产品上营养标签的下图:

营养标签图示。

Azure AI 视觉服务可以分析此图像并提取以下文本:

Nutrition Facts Amount Per Serving
Serving size:1 bar (40g)
Serving Per Package: 4
Total Fat 13g
Saturated Fat 1.5g
Amount Per Serving
Trans Fat 0g
calories 190
Cholesterol 0mg
ories from Fat 110
Sodium 20mg
ntDaily Values are based on
Vitamin A 50
calorie diet

训练自定义模型

如果 Azure AI 视觉提供的内置模型不满足你的需求,可以使用该服务来训练自定义模型,以便 图像分类对象检测。 Azure AI 视觉在预先训练的基础模型上生成自定义模型,这意味着可以使用相对较少的训练图像来训练复杂的模型。

图像分类

图像分类模型用于预测图像的类别或 。 例如,可以训练模型来确定图像中显示的水果类型,如下所示:

苹果 香蕉 橙色
苹果示意图。 香蕉示意图 橙子图示。

对象检测

对象检测模型检测图像中的对象并对其进行分类,返回边界框坐标以查找每个对象。 除了 Azure AI 视觉中的内置对象检测功能外,还可以使用自己的图像训练自定义对象检测模型。 例如,可以使用水果照片来训练一个模型,该模型可检测图像中的多个水果,如下所示:

图像中检测到的多个水果的关系图。

注释

有关如何使用 Azure AI 视觉训练自定义模型的详细信息超出了本模块的范围。 可以在 Azure AI 视觉文档中找到有关自定义模型训练的信息。

接下来,让我们看看特定于 Azure AI 视觉人脸服务的功能。