zoukankan      html  css  js  c++  java
  • [标点符] 机器学习算法之决策树 学习笔记(1/3) 待续...

    机器学习算法之决策树

    主要借鉴归纳: https://www.biaodianfu.com/decision-tree.html

    01 什么是决策树

    重要特征点

    1. 决策树依托策略决策, 建立起来的N叉树模型
    2. 决策树是一种预测模型
    3. 树中每个结点表示某种对象(多个特征的取值范围的集合),每个分叉路径依据某种标准进行分割,从根节点到叶子结点所经历的路径对应一个判定的测试序列
    4. 可以看做是在特征空间上的条件概率分布 ???
    5. 常见实践算法:基于启发式的贪心算法
      优化决策树的方向
    • 减少叶子结点
      - 通过合并叶子结点(优化合并决策树),决策树的叶子结点越少,往往决策树的泛化能力越高

    图示

    02 优缺点

    优点

    • 清晰,可以可视化,非常直观
    • 可以用于分类和回归, 而且非常容易做多分类的分类 ???????????????????
    • 能够处理数值型和连续的样本特征 ????????????
      缺点
    • 过拟合, 应对策略:进行剪枝可以缓解过拟合的负作用,如:限制树的高度、叶子结点的数量
    • 不能简历全局最优的决策树,使用随机森林可以解决这个问题

    基于ID3算法的决策分析

    03 基于ID3算法的决策分析

    • 简述: ID3算法是一种基于决策树的分类算法,基于信息熵的信息增益为衡量标准,从而实现对数据的归纳分类
    • 算法策略: 根据信息增益(率), 运用自顶向下的贪心策略
    • 主要优点: 建立的决策树的规模越小,查询的速度越快,即越小型的决策树越优于大的决策树
    信息量是啥?

    • 事件A:巴西队进入了2018世界杯决赛圈。(信息量小,概率大)
    • 事件B:中国队进入了2018世界杯决赛圈。(信息量大,概率小)
      可以简单定义: 信息量和事件发生的概率相关,事件发生的概率越低,传递的信息量越大

      例如,
      今天下雨的概率是0.5,则包含的信息量为 −log2(0.5)=1比特;
      同理,下雨天飞机正常起飞的概率为0.25,则信息量为−log2(0.25)=2比特。

    定义: 用来度量信息的不确定程度。不确定程度越高,熵越高.

    信息熵

    信息熵(Entropy)是接受信息量的平均值,用于确定信息的不确定程度,是随机变量的均值。
    信息熵越大,信息就越凌乱或传输的信息越多,熵本身的概念源于物理学中描述一个热力学系统的无序程度。信息熵的处理信息是一个让信息的熵减少的过程。

    假设X是一个离散的随机变量,且它的取值范围为x1,x1,…,xn,每一种取到的概率分别是 p1,p1,…,pn,那么 X 的熵定义为:

    拓展 熵,条件熵,互信息,交叉熵 的理解总结 https://zhuanlan.zhihu.com/p/32401995
    条件熵

    若某个事件Xi下又分支有y1/y2,求条件熵时为了决定当前事件Xi是否值得继续向下贪心,步骤如下:
    这里我们认为 Y 就是用某个维度进行切分,那么 y 就是切成的某个子集合于是 H(X|Y=y) 就是这个子集的熵。
    因此可以认为就条件熵是每个子集合(y1、y2)的熵的一个加权平均/期望。

    信息增益

    当选择某个特征对数据集进行分类时,分类后的数据集信息熵会比分类前减少,减少的差值就是信息增益.

    04 ID3算法流程

    输入:数据集D,特征集A
    输出:ID3决策树
    流程:

    1. 对当前样本集合计算出所有属性信息的信息增益
    2. 先选择信息增益最大的属性作为测试属性,将测试属性相同的样本转化为同一个子样本
    3. 若子样本集的类别属性只含有单个属性,则分支为叶子节点,判断其属性值并标上相应的符号,然后返回调用处,否则对子样本递归调用本算法。

  • 相关阅读:
    Spock
    Spock
    Spock
    Spock
    Spock
    Spock
    Python3 与 Python2 的不同
    python 文件处理
    Django 数据迁移
    Python 特殊方法
  • 原文地址:https://www.cnblogs.com/zhazhaacmer/p/13748819.html
Copyright © 2011-2022 走看看