zoukankan      html  css  js  c++  java
  • 贝叶斯与决策树

    贝叶斯和决策树

    贝叶斯公式一言以蔽之:寻求概率的概率是多少。

    (P(A|B)=frac{P(B|A)·P(A)}{P(B)})

    我们假设有这样一件事:抛三次硬币,有一个人抛了三次全部都是正面,这就很奇怪了,是不是可能作弊了,还是说真的运气好,贝叶斯在这的应用就是计算作弊的概率有多大。

    (P(A))是先验分布,表示的是这个人的人品如何

    (P(B|A))是实验数据

    (P(A|B))是后验概率,表示的是在出现三次硬币都向上的情况下,这个人作弊的概率

    因此,可以理解上述贝叶斯推断为如下表达式

    后验分布 = 先验分布 + 实验数据
    

    朴素贝叶斯

    通常(B=B_1∪B_2∪B_3...)贝叶斯公式就写为

    (P(A|B)=frac{P(B|A)·P(A)}{P(B)}=frac{P(B_1,B_2,B_3...|A)P(A)}{P(B_1,B_2,B_3...)})

    其中(P(B_1,B_2,B_3...|A))的计算不太方便,引出条件独立的概念(P(A|G,B)=P(A|G))对其进行简化

    导出(P(A,B|G)=P(A|G)P(B|G))

    由于分母的值是一个常数,再进一步简化,获得另一个值

    (omega = P(A)prod_{i=0}^nP(B_i|A))

    拉普拉斯平滑

    因为朴素贝叶斯的公式中全部都是连乘,万一有一项为0,导致后续的计算全部为0,这就出大问题了。而在计算条件概率的时候大多都是靠离散数据来求,如果数据集中没出现过的数据来到计算的步骤,显然会显示为0,拉普拉斯平滑的作用就是避免0的出现(后续开专栏讲这个吧,挖个坑)

    决策树

    通过特征对数据进行分类,如果两种不同的分类方式可以获得完全相同的预测结果,就选择简单的那种分类方式,这就使奥卡姆剃刀法则。

    ID3决策树

    在介绍ID3决策树之前,需要先了解信息熵和信息增益,参考我的博客:https://www.cnblogs.com/seaman1900/p/15314895.html

    ID3的算法规则很简单,就是寻找信息增益最高的特征作为节点,同时意味着选了这个特征之后不确定性最小。

    分类停止的条件:

    • 经过特征分类后子节点剩余特征只有一种数据,其他特征的数据全部为0,称为pure
    • 剩下的数据已经无法再进行分类,特征用完了,称为no attribute
    • 根据某个特征分类后得到的是空的数据集,成为empty

    过学习:和神经网络类似,决策树的模型越复杂,学的越多,准确率就越高,但是相反的,在实际中面对复杂的情况下,有可能“读书读傻了”,导致运行效果就有可能不太理想。因此需要对决策树进行早停、剪枝(将某些分类后数据多、分类效果明显的特征与同级别的不起眼、效果不够好的特征融合)。

    对于生日这样区分度高但是没有什么意义的特征需要添加惩罚。

  • 相关阅读:
    matlab图像处理-中值滤波原理
    typora修改主题和字体
    [NLP] TextCNN模型原理和实现
    [python] 基于词云的关键词提取:wordcloud的使用、源码分析、中文词云生成和代码重写
    基于sklearn和keras的数据切分与交叉验证
    基于TextRank提取关键词、关键短语、摘要
    [强化学习]Part1:强化学习初印象
    Linux多文件按行拼接整合命令paste
    文本匹配算法
    Python如何输出带颜色的文字
  • 原文地址:https://www.cnblogs.com/seaman1900/p/15385362.html
Copyright © 2011-2022 走看看