了解语义语言模型

已完成

随着NLP技术的发展,能够训练出封装令牌之间语义关系的模型,这促使了强大的深度学习语言模型的出现。 这些模型的核心是将语言标记编码为矢量(多值数字数组),称为 嵌入

矢量表示多维空间中的线条,描述沿多个轴的方向和距离。 总的来说,矢量描述路径从原点到终点的方向和距离。 语义上类似的标记应产生方向相似的向量,换句话说,它们指向同一方向。 举个简单的例子,假设标记的嵌入由包含三个元素的向量组成,例如:

- 4 ("dog"): [10,3,2]
- 5 ("bark"): [10,2,2]
- 8 ("cat"): [10,3,1]
- 9 ("meow"): [10,2,1]
- 10 ("skateboard"): [-3,3,2]

在三维空间中,这些向量如下所示:

在三维空间上绘制的标记图。

“狗”和“小狗”的嵌入向量描述了一条沿几乎完全相同的方向的路径,这也与“猫”的方向相当相似。 “滑板”的嵌入向量则描述了一段截然不同的旅程方向。

我们在行业中使用的语言模型基于这些原则,但复杂性更大。 例如,使用的向量通常具有更多维度。 还可以通过多种方式计算给定标记集的相应嵌入。 不同的方法产生与自然语言处理模型不同的预测。

下图显示了大多数现代自然语言处理解决方案的通用视图。 原始文本的大型语料库被标记化,用于训练语言模型,该模型可以支持许多不同类型的自然语言处理任务。

用于标记文本并训练支持自然语言处理任务的语言模型的过程示意图。

用于文本分类的机器学习

另一种有用的文本分析技术是使用分类算法(如 逻辑回归)来训练机器学习模型,该模型基于一组已知的分类对文本进行分类。 此方法的常见应用是训练将文本分类为 的模型,以便执行 情绪分析观点挖掘

例如,请考虑以下餐厅评论,这些评论已标记为 0)或 1):

- *The food and service were both great*: 1
- *A really terrible experience*: 0
- *Mmm! tasty food and a fun vibe*: 1
- *Slow service and substandard food*: 0

使用足够标记的评论,可以使用标记化文本作为 特征 和情绪(0 或 1) 标签来训练分类模型。 该模型将封装令牌与情感之间的关系。例如,包含类似"great""tasty""fun"等单词的评论更可能返回情感值1正面),而包含单词如"terrible""slow""substandard"的评论则更可能返回0负面)。