zoukankan      html  css  js  c++  java
  • 决策树算法(2)

    ID3算法:

    ID3算法就是在决策树上各个结点应用信息增益准则作为特征筛选,然后递归的构建决策树。具体算法如下所示:

    输入:训练数据集D,特征集A,阈值e

    输出:决策树T

    (1)若D中所有实例属于同一类Ck,则T为单结点树,并将Ck作为该结点的类标记,返回T

    (2)若A为空,则T为单结点树,并将D中实例最大的类Ck作为该结点的类标记,返回T

    (3)否则,计算A中各特征对D的信息增益,选择信息增益最大的特征Ag

    (4)如果Ag的信息增益小于阈值,则T为单结点树,并将D中实例数最大的类Ck作为该结点的类标记,返回T

    (5)否则,对Ag的每一个可能值ai,按照Ag=ai将D划分为多个非空子集Di,将Di中实例数最大的类作为标记,构建子结点,由结点及其子结点构成树T,返回T

    (6)对第i个子结点,以Di为训练集,以A-Ag作为特征集,递归调用(1)-(5),得到子树T1,返回T1

     该算法的缺点在于:

    1)倾向于选择取值较多的属性,而这类属性很多情况下没法提供太多价值。

    2)只能为选择属性为离散性的变量构造决策树

    C4.5算法(与ID3的差别在于C4.5以信息增益比作为特征筛选):

    输入:训练数据集D,特征集A,阈值e;

    输出:决策树T

    (1)如果D中所有实例属于同一类Ck,则将T作为单结点树,并将Ck作为该结点的类,返回T

    (2)如果A为空,则将T作为单结点树,并将D中实例数最大的类Ck作为该结点的类,返回T

    (3)否则计算A中各个特征对D的信息增益比,选择信息增益比最大的特征Ag

    (4)如果Ag的信息增益比小于阈值,则将T作为单结点树,并将Di中实例数最大的类Ck作为该结点的类,返回T

    (5)否则对于Ag的每个可能取值ai,按照Ag=ai将D划分为若干个子集Di,将Di中实例最大的类作为标记,构建子结点,由结点及其子结点构成树T,返回T

    (6)对结点i,以Di为训练集,以A-{Ag}为特征集,递归调用(1)-(5),得到子树Ti,返回Ti

     注:信息增益比公式

    优点:

     1)该算法克服了ID3算法偏向于取值较多的属性的缺点。

     2)可以处理连续数值型属性(对连续型数据从大到小排序,生成n-1个分割点,选取信息增益率最大的点作为分割点)

     3)采用后剪枝方法

     4)缺失值处理

    缺点:构造树过程需要对数据集扫描和排序,导致算法低效。

    决策树的损失函数有如下表达式:

     

    其中经验熵表示为:

    以上的|T|表示树T的叶结点个数,t是树T的叶结点,该叶结点有Nt个样本点,其中k类的样本点有Ntk个,k=1,2,...,K,Ht(T)为叶结点t上的经验熵,

    该损失函数的第一项可以表示为:

    因此原损失函数可以简化为:

     Ca(T)=C(T)+a|T|

     上式中C(T)表示模型对训练数据的误差,|T|表示模型拟合程度。 

    剪枝算法的思路主要在于:剪枝之后的Ca(T)能达到更小的水平

    决策树的剪枝:

    预剪枝:

    即设定阈值,若在增加新的分割时,熵减少的数量小于这个阈值,则停止创建分支

    后剪枝:

    通过对具有同一个父结点的结点判断,判断在结点合并之后熵的增加值是否小于阈值,如果小于该阈值,则这对子结点可合并为一个结点,并将原父结点作为新的叶结点。

     REP(错误率降低剪枝):

    通过将子树转为叶结点,以子树中最多的类作为该叶结点类,以单独测试集来比较转换前后是否错误率有所提高,若有所提高则删除子树,无则往上遍历。

    PEP(悲观剪枝):

    (待补充)

  • 相关阅读:
    jquery validate使用总结
    javascript 学习笔记
    jquery easyui 学习总结
    javascript模式及javascript学习终极篇
    javascript学习笔记基础
    javascript学习笔记常见问题及技巧
    一道ITAT的题(C语言实现)
    JAVA实现约瑟夫算法
    JAXWS例子
    practical java笔记(实践1~5)
  • 原文地址:https://www.cnblogs.com/xiaochouk/p/7955221.html
Copyright © 2011-2022 走看看