朴素贝叶斯
举个在 NLP 的应用:给一段文字,返回情感分类,这段文字的态度是positive,还是negative:
为了解决这个问题,可以只看其中的一些单词:
这段文字,将仅由一些单词和它们的计数代表:
原始问题是:给你一句话,它属于哪一类 ?通过bayes rules变成一个比较简单容易求得的问题:
问题变成,这一类中这句话出现的概率是多少,当然,别忘了公式里的另外两个概率。例子:单词“love”在positive的情况下出现的概率是 0.1,在negative的情况下出现的概率是0.001。
K近邻算法
给一个新的数据时,离它最近的 k 个点中,哪个类别多,这个数据就属于哪一类。
例子:要区分“猫”和“狗”,通过“claws”和“sound”两个feature来判断的话,圆形和三角形是已知分类的了,那么这个“star”代表的是哪一类呢?
k=3时,这三条线链接的点就是最近的三个点,那么圆形多一些,所以这个star就是属于猫。