zoukankan      html  css  js  c++  java
  • python选择最佳决策树参数

    # -*- coding: utf-8 -*-
    #导入数据
    import pandas as pd
    data = pd.read_csv(r'E:Pythonmachine learningowndecision_tree	est.csv')
    X = data.ix[:,0:4].values
    y = data.ix[:,4].values
    
    #设置待选的参数        
    from sklearn.tree import DecisionTreeClassifier
    from sklearn.grid_search import GridSearchCV
    from sklearn.model_selection import StratifiedKFold
    decision_tree_classifier = DecisionTreeClassifier()
    parameter_grid = {'max_depth':[1,2,3,4,5],
                      'max_features':[1,2,3,4]}
    cross_validation = StratifiedKFold(y,n_folds=10)
    
    #将不同参数带入
    gridsearch = GridSearchCV(decision_tree_classifier,
                              param_grid = parameter_grid,
                              cv = cross_validation)
    gridsearch.fit(X,y)
    
    #得分最高的参数值,并构建最佳的决策树
    best_param = gridsearch.best_params_
    best_decision_tree_classifier = DecisionTreeClassifier(max_depth=best_param['max_depth'],
                                                           max_features=best_param['max_features'])
      DecisionTreeClassfier的参数有
    1.criterion gini or entropy 2.splitter best or random 前者是在所有特征中找最好的切分点 后者是在部分特征中(数据量大的时候) 3.max_features 默认是None(所有),log2,sqrt,N 特征小于50的时候一般使用所有的 #N就是特征属性的个数 4.max_depth 数据少或者特征少的时候可以不管这个值,如果模型样本量多,特征也多的情况下,可以尝试限制下 #防止过拟合 5.min_samples_split 如果某节点的样本数少于min_samples_split,则不会继续再尝试选择最优特征来进行划分。 如果样本量不大,不需要管这个值。如果样本量数量级非常大,则推荐增大这个值。 6.min_samples_leaf 这个值限制了叶子节点最少的样本数,如果某叶子节点数目小于样本数,则会和兄弟节点一起被 剪枝,如果样本量不大,不需要管这个值,大些如10W可是尝试下5 7.min_weight_fraction_leaf 这个值限制了叶子节点所有样本权重和的最小值,如果小于这个值,则会和兄弟节点一起 被剪枝默认是0,就是不考虑权重问题。一般来说,如果我们有较多样本有缺失值, 或者分类树样本的分布类别偏差很大,就会引入样本权重,这时我们就要注意这个值了。 8.max_leaf_nodes 通过限制最大叶子节点数,可以防止过拟合,默认是"None”,即不限制最大的叶子节点数。 如果加了限制,算法会建立在最大叶子节点数内最优的决策树。 如果特征不多,可以不考虑这个值,但是如果特征分成多的话,可以加以限制 具体的值可以通过交叉验证得到。 9.class_weight 指定样本各类别的的权重,主要是为了防止训练集某些类别的样本过多 导致训练的决策树过于偏向这些类别。这里可以自己指定各个样本的权重 如果使用“balanced”,则算法会自己计算权重,样本量少的类别所对应的样本权重会高。 10.min_impurity_split 这个值限制了决策树的增长,如果某节点的不纯度 (基尼系数,信息增益,均方差,绝对差)小于这个阈值 则该节点不再生成子节点。即为叶子节点 。

    注:学习的网易云课堂的Python数据分析(机器学习)经典案例,每个案例会教你数据预处理、画图和模型优化。比有些简单调个包跑一下的课程负责任的多。

  • 相关阅读:
    Go语言- import 导入包的语法
    go语言学习入门篇 3-- 程序执行流程
    go语言学习入门篇 2--轻量级线程的实现
    go语言学习入门篇1---go语言的主要特性与发展
    网络传输中的各种加密算法+SSL+CA证书详解
    压测工具 jmeter入门教程及汉化修改
    Array.isArray and Object.prototype.toString.call
    trim() 方法
    回文字符串判断
    监听微信返回按钮事件
  • 原文地址:https://www.cnblogs.com/chenyaling/p/7236435.html
Copyright © 2011-2022 走看看