了解 NLP 的统计技术
形成自然语言处理基础的两项重要统计技术包括: 天真贝亚斯 和 术语频率 - 反转文档频率 (TF-IDF)。
了解 Naïve Bayes
Naïve Bayes 是一种统计技术,首次用于电子邮件筛选。 若要了解垃圾邮件与非垃圾邮件之间的差异,请比较两个文档。 Naïve Bayes 分类器确定哪些令牌与标记为垃圾邮件的电子邮件相关。 换而言之,此方法发现哪组单词只发生在一种类型的文档中,而不是另一种类型中。 字词组通常称为词袋功能。
例如,与常规电子邮件相比,这些字词miracle cure
、lose weight fast
和anti-aging
可能在关于可疑健康产品的垃圾邮件中更频繁地出现。
虽然 Naïve Bayes 证明比简单的基于规则的文本分类模型更有效,但它仍然相对简单,因为只考虑单词或令牌的存在(而不是位置)。
了解 TF-IDF
术语频率 - 反转文档频率(TF-IDF)技术具有类似的方法,即将一个文档中单词的频率与整个文档库中单词的频率进行比较。 通过了解正在使用单词的上下文,可以根据某些主题对文档进行分类。 TF-IDF 通常用于信息检索,以帮助了解要搜索的相关词汇或令牌。
注释
在 NLP 的上下文中, 语料库 是指用于机器学习任务的文本文档的大型结构化集合。 语料库可用作训练、测试和评估各种 NLP 模型的基本资源。
例如,在对单词 "we choose to go to the moon"
进行标记后,可以执行一些分析来计算每个令牌的出现次数。 最常用的单词(除了停用词,例如"a"
,"the"
等等)通常可以为文本语料库的主要主题提供线索。 例如,我们以前考虑的"go to the moon"
语音的整个文本中最常见的单词包括"new"
、"go"
和"space"
"moon"
。 如果我们把文本标记为 bi-grams
(单词对),语音中最常见的 bi-gram
是 "the moon"
。 从这些信息中,我们很容易推测文本主要涉及太空旅行和前往月球。
简单频率分析,只需计算每个令牌的出现次数即可是分析单个文档的有效方法,但当需要区分同一文档库中的多个文档时,需要一种方法来确定每个文档中哪些令牌最相关。 TF-IDF 根据单词或术语在一个文档中的出现频率与其在整个文档集中的总体频率进行比较来计算分数。 使用这种技术时,我们假设在特定文档中频繁地出现但在众多的其他文档中相对不频繁地出现的单词具有高度相关性。
接下来,让我们看看用于创建当今语义模型的深度学习技术。