zoukankan      html  css  js  c++  java
  • 决策树细节

    https://zhuanlan.zhihu.com/p/85374168

    基尼指数gini index本身是一个概念,它可以用来描述集合里面分类的混乱程度,和信息熵的意义非常接近,用泰勒展开可以得到是信息熵的近似值。

    它可以用来描述很多个分类的集合,不光是2分类。

    但是如果应用在CART树上,因为CART树是二叉树,尽分为a和非a,所以CART树上,gini index最大是1-0.5**2-0.5**2=0.5, 基尼指数越大,表明不确定性越高。最小是0.

    而如果多分类的情况下,最大就不是0.5,而是

    • Perfectly classified, Gini Index would be zero.
    • Evenly distributed would be 1 – (1/# Classes).

    和ID3类似,构建树是时候,我们有限往信息增益最大,也就是H(D)-H(D|A) 的情况下生长。比如一开始很混乱信息熵为0.9,在某个特征条件下信息熵变为0.4,增益为0.5,令增益尽可能大。

    而CART树也是,它可以用于数值特征。我们首先对所有特征取一个临界点k进行区分,分为>k 和 <k。然后计算增益,增益最大的进行生长。,

  • 相关阅读:
    作为产品经理为什么选择开源GIS
    arcpy自动发布服务02
    rclone
    MinIO+Keepalived+Nginx
    Mysql-用户管理
    docker-compose
    docker-制造镜像
    docker-数据卷
    docker-容器操作
    docker-镜像操作
  • 原文地址:https://www.cnblogs.com/yjybupt/p/12965461.html
Copyright © 2011-2022 走看看