zoukankan      html  css  js  c++  java
  • 决策树及随机森林(笔记)

    决策树就是一层一层的if-else, 数据最好是离散型的

     决策树是有监督学习。利用训练集,最终训练为一棵树(叶子节点是类别,中间是属性)

    ————————————————————————————————————————————————————————————————

    决策树的构建方法 id3方法

    信息熵的概念:

    ID3构建决策树的思想:

    分布越均匀,越混乱,熵越大。结点上的数据类值都相同(毫无悬念,系统一点也不混乱,熵最小)

    因此一个好的决策树划分,应该是每次都找一个属性划分,这个属性划分完,结点尽量聚集在一类,即划分完以后熵很小。

    因此计算熵增益(信息增益)。

     

    用原系统的熵减去划分后系统的熵,找到差距最大的那个属性。

     

     

     

     

     

     ID3如何终止:

     ID3性质,不会回溯,已经选择过的属性,不会被重新计算和考虑。

    ————————————————————————————————————————————————————————————————————————————————————————————————————————————————————

    过拟合及剪枝算法

     

    数据划分法,就是用训练集和测试集。用训练集生成决策树,使用测试集测试,当错误率最小时,停止树的生长。

     后减枝,就是合并分支。

     

     C4.5和CART算法,这种决策树建立方法已经包含了减枝。

    ——————————————————————————————————————————————————————

    随机森林,就是决策树的森林。

    1. 有放回的随机抽取,构成训练子集, 对N个子训练集分别构建决策树

    2. 也可以对特征进行采样(类似于用来进行特征筛选)

    3、投票。

     

  • 相关阅读:
    2017博普杯 东北大学邀请赛(B. Drink too much water)(贪心+树链剖分)
    AGC018D Tree and Hamilton Path(树+树的重心)
    BZOJ2843:极地旅行社
    P++ 1.0.5
    BZOJ1052:[HAOI2007]覆盖问题
    BZOJ3098:Hash Killer II
    BZOJ2784:[JLOI2012]时间流逝
    BZOJ2282:[SDOI2011]消防
    BZOJ1875:[SDOI2009]HH去散步
    Codeforces 504 A (Round #285 div.1 A) Misha and Forest
  • 原文地址:https://www.cnblogs.com/importsober/p/13061120.html
Copyright © 2011-2022 走看看