自带数据集类型如下:
# 自带小型数据集
# sklearn.datasets.load_<name>
# 在线下载数据集
# sklearn.datasets.fetch_<name>
# 计算机生成数据集
# sklearn.datasets.make_<name>
# svmlight/libsvm格式数据集
# sklearn.datasets.load_svmlight_file(path)
# mldata.org在线下载网站数据集
# sklearn.datasets.fetch_mldata(path)
以鸢尾花数据为例,介绍一下自带数据集的使用。
基本使用:
import sklearn import matplotlib.pyplot as plt # 载入数据集 iris = sklearn.datasets.load_iris() # 鸢尾花数据 # 打印数据集中的类型 print(iris.keys()) # dict_keys(['target', 'data', 'feature_names', 'DESCR', 'target_names']) # target:标签 # data :数据 # feature_names :特征名称,list,按照data中排序生成 # target_names : 标签名称,list,按照target中排序生成 print(iris.target.shape) print(iris.data.shape) print(iris.feature_names) print(iris.target_names) # (150,) # (150, 4) # ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)'] # ['setosa' 'versicolor' 'virginica']
使用一个特征绘制柱状图:
x_index = 3 colors = ['blue', 'red', 'green'] for label, color in zip(range(len(iris.target_names)), colors): plt.hist(iris.data[iris.target==label, x_index], label = iris.target_names[label], color=color) plt.xlabel(iris.feature_names[x_index]) plt.legend(loc='upper right') plt.show()
使用两个特征绘制散点图:
x_index = 0 y_index = 1 colors = ['blue', 'red', 'green'] for label, color in zip(range(len(iris.target_names)), colors): plt.scatter(iris.data[iris.target == label, x_index], iris.data[iris.target == label, y_index], label=iris.target_names[label], # 图例内容 color=color) plt.xlabel(iris.feature_names[x_index]) plt.ylabel(iris.feature_names[y_index]) plt.legend(loc='upper right') # 显示图例 plt.show()
其他自带小型数据集(load的)均同理,以后遇到教程使用时不用再慌了。