zoukankan      html  css  js  c++  java
  • 【笔记】基尼系数

    基尼系数

    使用信息熵的方式对决策树进行划分

    除了时候信息熵来进行划分,还可以使用另一个指标来进行划分,指标就是基尼系数

    基尼系数的式子很简单,取值情况和信息熵一样

    假设有两个类别,一个占比x,另一个占比1-x,那么上面的式子就可以变成(抛物线)

    可以发现这个是以0.5为对称轴的,即0.5的时候取到了最大值,此时数据的不确定性最大

    不难发现基尼系数和信息熵的性质很像

    具体实现观察一下基尼系数

    (在notebook中)

    加载好包,使用鸢尾花数据集,只保留前两个维度的特征

      import numpy as np
      import matplotlib.pyplot as plt
      from sklearn import datasets
    
      iris = datasets.load_iris()
      X = iris.data[:,2:]
      y = iris.target
    

    使用sklearn中的DecisionTreeClassifier,训练一个决策树的分类器,修改criterion为gini

      from sklearn.tree import DecisionTreeClassifier
    
      dt_clf = DecisionTreeClassifier(max_depth=2,criterion="gini")
      dt_clf.fit(X,y)
    

    绘制函数,绘制图像

    from matplotlib.colors import ListedColormap
    def plot_decision_boundary(model, axis):
    
        x0,x1 = np.meshgrid(  
            np.linspace(axis[0],axis[1],int((axis[1]-axis[0])*100)).reshape(-1,1),
            np.linspace(axis[2],axis[3],int((axis[3]-axis[2])*100)).reshape(-1,1)
        )
        X_new = np.c_[x0.ravel(),x1.ravel()]
        
        y_predict = model.predict(X_new)
        zz = y_predict.reshape(x0.shape)
        
        custom_cmap = ListedColormap(['#EF9A9A', '#FFF59D', '#90CAF9'])
    
        plt.contourf(x0, x1, zz, linewidth=5, cmap=custom_cmap)
    
      plot_decision_boundary(dt_clf,axis=[0.5,7.5,0,3])
      plt.scatter(X[y==0,0],X[y==0,1])
      plt.scatter(X[y==1,0],X[y==1,1])
      plt.scatter(X[y==2,0],X[y==2,1])
    

    图像如下(和使用信息熵的结果相同)

    然后就开始模拟使用基尼系数的划分操作,和信息熵的操作区别不大(信息熵的操作),将基尼系数的公式修改进去,区别为使用基尼系数的时候res初始值为1.0,然后计算式为减去p的平方,对于try_split这个函数,区别不大,修改了变量名,其他的思想相同

      from collections import Counter
      from math import log
    
      def split(X,y,d,value):
          index_a = (X[:,d] <= value)
          index_b = (X[:,d] > value)
          return X[index_a],X[index_b],y[index_a],y[index_b]
    
      def gini(y):
          counter = Counter(y)
          res = 1.0
          for num in counter.values():
              p = num/len(y)
              res -= p ** 2
          return res
    
      def try_split(X,y):
    
          best_g = 1e9
          best_d,best_v = -1,-1
          for d in range(X.shape[1]):
              sorted_index = np.argsort(X[:,d])
              for i in range(1,len(X)):
                  if X[sorted_index[i-1],d] != X[sorted_index[i],d]:
                      v = (X[sorted_index[i-1],d] + X[sorted_index[i],d]) / 2
                      X_l,X_r,y_l,y_r = split(X,y,d,v)
                      g = gini(y_l) + gini(y_r)
                      if g < best_g:
                          best_g,best_d,best_v = g,d,v
                    
          return best_g,best_d,best_v
    

    使用这个函数,将结果打印出来

      best_g,best_d,best_v = try_split(X,y)
      print("best_g = ",best_g)
      print("best_d = ",best_d)
      print("best_v = ",best_v)
    

    结果如下(与图像符合)

    存储划分结果以后输出观察一下y1_l和y1_r的情况

      X1_l,X1_r,y1_l,y1_r = split(X,y,best_d,best_v)
      gini(y1_l)
      gini(y1_r)
    

    结果如下

    然后再次进行划分,得到结果打印输出出来

      best_g2,best_d2,best_v2 = try_split(X1_r,y1_r)
      print("best_g = ",best_g2)
      print("best_d = ",best_d2)
      print("best_v = ",best_v2)
    

    结果如下

    将再次打印的结果存储以后,输出观察一下y2_l和y2_r的情况

      X2_l,X2_r,y2_l,y2_r = split(X1_r,y1_r,best_d2,best_v2)
      gini(y2_l)
      gini(y2_r)
    

    结果如下

    以上就是模拟使用基尼系数进行划分的操作

    关于信息熵和基尼系数的对比

    通过算式可以发现,信息熵的计算比基尼系数要慢一些,更复杂,整体而言,两种方式的效果区别不大,没有特别的优劣之分

  • 相关阅读:
    Linux下的cut选取命令详解
    Linux下的hostname命令详解
    Linux下的sed流编辑器命令详解
    Linux下的设置静态IP命令详解
    模型评估方法
    模型验证方法
    超参数优化方法
    数据集划分方法
    数据预处理:标称型特征的编码和缺失值处理
    数据预处理:规范化(Normalize)和二值化(Binarize)
  • 原文地址:https://www.cnblogs.com/jokingremarks/p/14341947.html
Copyright © 2011-2022 走看看