zoukankan      html  css  js  c++  java
  • 初级算法梳理 -【任务3 决策树算法梳理】

    任务内容

    1.信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)
    2.决策树的不同分类算法(ID3算法、C4.5、CART分类树)的原理及应用场景
    3.回归树原理
    4.决策树防止过拟合手段
    5.模型评估
    6.sklearn参数详解Python绘制决策树

    具体解释

    信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)

    • 熵表示的是随机变量不确定性的度量。熵越大,随机变量的不确定性也就越大。
    • 联合熵和条件熵
      两个随机变量X,Y的联合分布形成联合熵。
      即在已知一个变量的前提下,另一个变量的不确定性。
    • 信息增益
      熵值减去条件熵值,代表了在一个条件下,信息复杂度(不确定性)减少的程度。
    • 基尼不纯度
      基尼不纯度为这个样本被选中的概率乘以它被分错的概率;可以作为衡量系统混乱程度的标准,值越小,代表分类效果越好,值为0,表示只有一个类别。

    2.决策树的不同分类算法(ID3算法、C4.5、CART分类树)的原理及应用场景
    决策树概念:所谓决策树,顾名思义,就是一种树,一种依托于策略抉择而建立起来的树。在机器学习中,决策树是一种预测模型,代表的是一种对象特征属性与对象目标值之间的一种映射关系。决策树仅有单一输出,如果有多个输出,可以分别建立独立的决策树以处理不同的输出。

    • ID3算法
      原理:
      ID3算法是J. Ross Quinlan于1975提出的一种贪心算法,用来构造决策树。其建立在“奥卡姆剃刀”的基础上,即越是小型的决策树越优于大的决策树。ID3算法中根据特征选择和信息增益评估,每次选择信息增益最大的特征作为分支标准。
      应用场景:
      ID3算法可用于划分标称型数据集,没有剪枝的过程,为了去除过度数据匹配的问题,可通过裁剪合并相邻的无法产生大量信息增益的叶子节点(例如设置信息增益阀值)。

    • C4.5
      原理:C4.5算法是对ID3算法的改进,C4.5克服了ID3的2个缺点:
      用信息增益选择属性时偏向于选择分枝比较多的属性值,即取值多的属性
      不能处理连续属性
      对于离散特征,C4.5算法不直接使用信息增益,而是使用“增益率”(gain ratio)来选择最优的分支标准。
      应用场景:

    • CART分类树
      原理:不同于前两种算法预测结果为分类结果,CART的预测结果为概率值。并且改进了前两种算法中的一个缺点:使用信息增益或信息增益比时,可选值多的特征往往有更高的信息增益。所以在CART树中,不再采用信息增益或信息增益比,而是在做回归时采用平方误差最小化准则,在做分类时采用基尼指数最小化准则。

    3.回归树原理
    https://www.jiqizhixin.com/articles/2017-07-31-3

    4.决策树防止过拟合手段
    剪枝是决策树学习算法对付“过拟合”的主要手段。决策树剪枝的基本策略有“预剪枝”和“后剪枝”。
    预剪枝是指在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点;后剪枝则是先从训练集生成一棵完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点。

    5.模型评估
    https://blog.csdn.net/qq_26898461/article/details/50639880

    1. sklearn参数详解,Python绘制决策树
      https://cloud.tencent.com/developer/article/1146079
  • 相关阅读:
    OpenCV——PS 图层混合算法(一)
    PS 滤镜算法原理——照亮边缘
    PS 色调——老照片效果
    PS 滤镜算法原理——浮雕效果
    PS 滤镜算法原理——碎片效果
    PS 滤镜算法原理——染色玻璃
    PS 滤镜算法原理——高反差保留 (High Pass)
    PS图像特效算法——镜像渐隐
    手把手教你写专利申请书/怎样申请专利
    经常使用的webservice接口
  • 原文地址:https://www.cnblogs.com/everfight/p/ML_task3.html
Copyright © 2011-2022 走看看