zoukankan      html  css  js  c++  java
  • 3 决策树(一)

    3.1  决策树的构造

    3.1.1 信息增益

    熵(entropy)是信息的期望值。如果待分类的事物可能划分在多个分类中,则符号xi的信息定义为:,p(xi)为该分类的概率。

    为了计算熵,需计算所有类别所有可能包含的信息期望值:,n是分类的数目。

    3.1.2 划分数据集

    分类算法需要:上述的测量信息熵、划分数据集、度量划分数据集的熵。

    注意:这里数据集需要满足以下两个办法:

    <1>所有的列元素都必须具有相同的数据长度

    <2>数据的最后一列或者每个实例的最后一个元素是当前实例的类别标签。

    3.1.3 递归构建决策树

    递归结束条件:程序遍历完所有划分数据集的属性,或者每个分支下的所有实例都有相同的分类。

    如果数据集已处理完所有属性,但类标签依然不唯一。此时,会采用多数表决方法决定该叶子节点分类。

    该叶节点中属于某一类最多的样本数,那么我们就说该叶节点属于那一类!。

  • 相关阅读:
    css引入讲解及media
    css中的media
    IE6存在的一些兼容
    Eclipse 反编译插件JadClipse安装
    JavaScript 常用功能总结
    241个jquery插件—jquery插件大全
    javascript深入理解js闭包
    JS拖拽插件实现步骤
    JavaScript拖拽原理的实现
    js实现拖拽效果
  • 原文地址:https://www.cnblogs.com/hudongni1/p/5024450.html
Copyright © 2011-2022 走看看