了解 Azure AI 语言的文本分析功能

已完成

Azure AI 语言 是 Azure AI 服务的一部分,可以针对非结构化文本执行高级自然语言处理。 Azure AI 语言的文本分析功能包括:

  • 命名实体识别 可识别人员、地点、事件等。 还可以自定义此功能以提取自定义类别。
  • 实体链接 识别已知实体并链接到维基百科。
  • 个人标识信息(PII)检测 可识别个人敏感信息,包括个人健康信息(PHI)。
  • 语言检测 标识文本的语言,并返回英语语言代码,例如“en”。
  • 情绪分析和观点挖掘 确定文本是正面还是负面。
  • 摘要 通过标识最重要的信息来汇总文本。
  • 关键短语提取 列出了非结构化文本的主要概念。

让我们仔细看看其中一些功能。

实体识别和链接

可以为 Azure AI 语言提供非结构化文本,并返回它识别的文本中的 实体 列表。 实体是特定类型或类别的项;在某些情况下,子类型,例如:

类型 子类型 示例:
人员 “比尔·盖茨”,“约翰”
位置 “巴黎”、“纽约”
组织 “Microsoft”
数量 编号 “6”或“六”
数量 百分比 “25%”或“百分之五十”
数量 序数 “1st”或“第一个”
数量 年龄 “90 天”或“30 岁”
数量 货币 "10.99"
数量 尺寸 “10 英里”, “40 厘米”
数量 温度 “45 度”
日期/时间 “2012年2月4日下午6:30”
日期/时间 日期 “2017 年 5 月 2 日”或“2017/05/02”
日期/时间 时间 “8am”或“8:00”
日期/时间 日期范围 “5 月 2 日至 5 月 5 日”
日期/时间 时间范围 “下午 6 点到晚上 7 点”
日期/时间 持续时间 “1 分 45 秒”
日期/时间 设置 “每个星期二”
网址 https://www.bing.com
电子邮件 support@microsoft.com
美国的电话号码 "(312) 555-0176"
IP地址 "10.0.1.125"

Azure AI 语言还支持 实体链接 ,通过链接到特定引用来帮助消除实体歧义。 对于已识别的实体,该服务返回相关 维基百科 文章的 URL。

例如,假设你使用 Azure AI 语言检测以下餐厅评审摘录中的实体:

我上周在西雅图的餐厅吃饭。

实体 类型 子类型 维基百科 URL
西雅图 位置 https://en.wikipedia.org/wiki/Seattle
上个星期 日期/时间 日期范围

语言检测

你可以使用 Azure AI 语言的语言检测功能识别文本所用的语言。 对于每个提交的文档,服务会检测:

  • 语言名称(例如“英语”)。
  • ISO 639-1 语言代码(例如“en”)。
  • 表示语言检测可信程度的分数。

例如,请考虑拥有和经营餐馆的方案。 客户可以完成调查,并提供有关食品、服务、员工等的反馈。 假设你收到了来自客户的以下评论:

评论 1:“一个梦幻般的午餐地点。汤很美味。

评论 2: “美味的食物和优质的服务。

评价 3:“The croque monsieur avec frites was terrific.Bon appetit!

可以使用 Azure AI 语言中的文本分析功能来检测每个评论的语言;它可能会响应以下结果:

文档 语言名称 ISO 6391 代码 得分
评价 1 英语 en 1.0
评价 2 西班牙语 es 1.0
评价 3 英语 en 0.9

请注意,检测到审阅 3 的语言是英语,尽管文本包含英语和法语混合。 语言检测服务侧重于文本中 的主要 语言。 与文本中的其他语言相比,服务使用算法来确定主要语言,例如短语长度或语言的总文本量。 主要语言是返回的值以及语言代码。 由于混合语言文本,置信度分数可能小于 1。

可能有一些文本在本质上不明确,或者具有混合语言内容。 这些情况可能会带来挑战。 不明确的内容示例是文档包含有限文本或仅标点符号的情况。 例如,使用 Azure AI 语言分析文本“:-)”,结果是语言名称和语言标识符的值为 未知,分数为 NaN(即用于指示 非数字)。

情绪分析和观点挖掘

Azure AI 语言中的文本分析功能可以评估文本并返回每个句子的情绪分数和标签。 此功能可用于在社交媒体、客户评论、讨论论坛等中检测正面和负面情绪。

Azure AI 语言使用预生成的机器学习分类模型来评估文本。 该服务以三个类别返回情绪分数:正、中和负。 在每个类别中,提供介于 0 和 1 之间的分数。 分数表明提供的文本中某种特定情绪出现的可能性。 还提供了一个文档情绪。

例如,可以对以下两个餐厅评价进行情绪分析:

评论1:“我们昨晚在这家餐厅共进晚餐,我注意到的第一件事是工作人员是多么礼貌。我们以友好的方式迎接,立即带到我们的桌子上。桌子干净,椅子舒服,食物很棒。

以及

评论2:“我们在这家餐厅的餐饮体验是我有史以来最糟糕的一次。服务很慢,食物很糟糕。我再也不会在这个机构吃饭了。

第一次评审的情绪分数可能是:文档情绪:积极评分:0.90 中性分数:0.10 负分数:0.00

第二次评论可能会返回响应:文档情绪:负正分数:0.00 中性分数:0.00 负分数:0.99

关键短语提取

关键短语提取标识文本中的要点。 请考虑前面讨论的餐馆方案。 如果你有大量调查,可能需要很长时间才能阅读这些评论。 相反,可以使用语言服务的关键短语提取功能来汇总要点。

你可能会收到如下评论:

我们在这里共进晚餐庆祝生日,并体验了一次梦幻般的经历。我们受到一个友好的女主人的欢迎,马上带到我们的桌子上。氛围很放松,食物很棒,服务很棒。如果你喜欢伟大的食物和周到的服务,你应该尝试这个地方。

关键短语提取可以通过提取以下短语来提供此评审的一些上下文:

  • 生日庆祝活动
  • 梦幻般的体验
  • 友好的女主人
  • 美味的食物
  • 周到的服务
  • 晚餐
  • 氛围
  • 位置

接下来,让我们看看 Azure AI 语言的对话 AI 功能。