zoukankan      html  css  js  c++  java
  • 决策树

    树模型:

    决策树:从根节点开始一步步走到叶子节点(决策)。

    所有的数据最终都会落到叶子节点,既可以做分类也可以做回归。

    树的组成:

    根节点:第一个选择点

    非叶子节点与分支:中间过程

    叶子节点:最终的决策树结果

    决策树的训练与测试:

    训练阶段:从给定的训练集构造出来一棵树(从根节点开始选择特征,如何进行特征切分)

    测试阶段:根据构造出来的树模型从上到下走一遍就好了。

    问题:根节点的选择该用哪个特征?接下来,如果切分呢?(如何切分特征)

    目标:通过一种衡量标准,来计算通过不同的特征进行分支选择后的分类情况,找出最好的那个当成根节点,以此类推。

    衡量标准-熵

    :熵是表示随机变量不确定性的度量(越乱的结构说明熵值越高)。不确定性越大,得到的熵值也越大。

    (解释:说白了就是物体内部的混乱程度,比如杂货市场里面什么都有,那肯定混乱,专卖店里面只卖一个牌子的那就稳定多了) 

    当 p=0或p=1的时候,H(p)=0,随机变量完全没有不确定性。当p=0.5的时候,H(p)=1,此时随机变量的不确定性越大。

    信息增益:表示特征X使得类Y不确定性减少的程度。(分类后的专一性,希望分类后的结果是同类在一起)。也可以说表示的是你的熵值下降了多少。

    比如原来熵值是10,后来熵值是8,那么就说明信息增益为2.

    问答:

    1.如何决策一个节点的选择?

    通常来说大当家根节点去信息增益里面找最大的那个,二当家找信息增益第二的那个,依次类推下去,确保这个决策树的不确定性降到最低。增益越大,说明不确定性较少的越多。

  • 相关阅读:
    设计模式——桥接模式
    设计模式——工厂模式
    挖个坑
    Java 线程应用
    vtep-ctl + add-ls+ bind-ls +br-get-external-id
    ovs vtep 源码Tunnel_Ip
    vtep-ctl del-ls ls0
    vtep-ctl unbind-ls
    virt manager
    ironic 裸金属 failed to mount sysroot
  • 原文地址:https://www.cnblogs.com/yunxintryyoubest/p/12215295.html
Copyright © 2011-2022 走看看