zoukankan      html  css  js  c++  java
  • 【自然语言处理(二)】朴素贝叶斯

    1.基本公式

     其中P(Y),P(Y|X)叫作Y的先验概率,后验概率;P(X)和P(X|Y)叫作X的先验概率,后验概率;P(Y,X)叫作联合概率。

    2.公式如何来的?

    基于一个假设:特征条件之间相互独立

    由联合概率分布P(Y,X)=P(X)P(Y|X)=P(Y)P(X|Y)即可推出

    3.如何理解朴素贝叶斯的"朴素"?

    朴素:对于同一个句子,交换其中词语的顺序,所得到的概率仍一样;(这种情况也视为bag of words)

    4.处理重复词的三种方式?

    • 多项式模型:重复的词语我们视为出现多次;
    • 伯努利模型:重复的词语只视为出现一次;
    • 混合模型:在计算句子概率时,不考虑重复词出现的次数,但是在统计词语的概率时,却考虑重复词语的出现次数;

    5.去掉停用词与选择关键词

    6.平滑技术

    7.常用的tricks

    • 取对数
    • 转换为权重
    • 选取topk的关键词
    • 分割样本
    • 位置权重
    • 蜜罐

    8.处理多分类问题

  • 相关阅读:
    解决粘包问题
    粘包问题
    模拟ssh功能
    套接字接上链接循环
    套接字加入通讯循环
    简单通信
    网络编程
    单例模式
    记录一下:chrome上,把网页保存为文件的插件
    centos6.5 64bit 实现root开机自动登录X桌面
  • 原文地址:https://www.cnblogs.com/xiximayou/p/11848442.html
Copyright © 2011-2022 走看看