sklearn之决策树和随机森林对iris的处理比较

zoukankan html css js c++ java

sklearn之决策树和随机森林对iris的处理比较

# Iris鸢尾花数据集是常用的分类实验数据集，由Fisher, 1936收集整理。

# 是一类多重变量分析的数据集。分为3类，每类50个数据，每个数据包含4个属性。

# 可通过4个属性预测鸢尾花属于（Setosa，Versicolour，Virginica）三个种类中的哪一类。

sklearn决策树

from sklearn import datasets,tree

import numpy as np

#载入数据集

iris=datasets.load_iris()

iris_data=iris['data']

iris_label=iris['target']

X=np.array(iris_data)

Y=np.array(iris_label)

#训练

clf=tree.DecisionTreeClassifier(max_depth=5)

clf.fit(X,Y)

#预测

print clf.predict([[4.1, 2.2, 2.3, 5.4]])

sklearn随机森林

from sklearn import datasets, ensemble

import numpy as np

iris=datasets.load_iris()

iris_data=iris['data']

iris_label=iris['target']

X=np.array(iris_data)

Y=np.array(iris_label)

clf = ensemble.RandomForestClassifier(max_depth=5, n_estimators=1, max_features=1)

clf.fit(X,Y)

print clf.predict([[4.1, 2.2, 2.3, 5.4]])

本意是想确认，当随机森林里n_estimators=1即森林数量1个时，看结果是否和决策树一致。

多次执行程序发现，两段代码的结果都是不唯一的。决策树在任何条件下的结果不都应该是唯一的吗？困惑！

先去学其他的，后面深入研究下sklearn的代码含义，再来解决这个问题。

可以参考：http://wenda.chinahadoop.cn/question/5951

Q：看了下sklearn决策树算法的predict_proba接口，它的解释是输出一个样本属于某个类的概率。但是我所理解的，每一个样本在给定的决策树下，最终应该只会属于一个类别，那也就是意味着这个样本属于那个类别的概率就应该是100%啊。那predict_proba这个接口是怎么计算所谓的概率的呢？不知道我是不是哪里理解错了。

A：这是《机器学习·升级版IV》中“决策树和随机森林”章节的问题。

答案非常简单：因为叶子节点是“纯结点”，假定某个叶子包含的三个类别的样本个数分别是（7,2,1），则如果某测试样本落在这个结点中，它判定这三个类别的概率分别是（0.7,0.2,0.1）。

查看全文

相关阅读:
闭包
 TCL
[Go] gin框架渲染html字符串
 [Go] 使用packr包把静态文件打包进二进制内
 [javascript] 获取正则子表达式里的内容
 [redis] Zremrangebylex命令移除元素令人困惑不能理解
 [Go] 获取文件夹下面指定模式的文件列表 , 并且获取文件创建时间删除超过30分钟的文件
 [vuejs] 聊天框在overflow:auto中填数据时滚动到底部
 [vuejs] 在vuejs中使用websocket进行实时通讯
 Egret顶级开发者—李昌平

原文地址：https://www.cnblogs.com/myshuzhimei/p/11776607.html

最新文章
git 代码统计
 VSCode 配置
 红黑树
 hashtable
鸡汤
 MySQL优化
 Spring+hibernate+struts
java综合
 MAC下的命令操作
 ASSIC码对照表