具体看原文:点击这里
datasets数据集
sklearn的数据集库datasets提供很多不同的数据集,主要包含以下几大类:
- 玩具数据集
- 真实世界中的数据集
- 样本生成器
- 样本图片
- svmlight或libsvm格式的数据
- 从http://openml.org下载的数据
- 从外部加载的数据
用的比较多的就是1和3,这里进行主要介绍,其他的会进行简单介绍,但是不建议使用。
玩具数据集
scikit-learn 内置有一些小型标准数据集,不需要从某个外部网站下载任何文件,用datasets.load_xx()加载。
(一) 波士顿房价
统计了波士顿506处房屋的13种不同特征( 包含城镇犯罪率、一氧化氮浓度、住宅平均房间数、到中心区域的加权距离以及自住房平均房价等 )以及房屋的价格,适用于回归任务。
from sklearn import datasets # 导入库 boston = datasets.load_boston() # 导入波士顿房价数据 print(boston.keys()) # 查看键(属性) ['data','target','feature_names','DESCR', 'filename'] print(boston.data.shape,boston.target.shape) # 查看数据的形状 (506, 13) (506,) print(boston.feature_names) # 查看有哪些特征 这里共13种 print(boston.DESCR) # described 描述这个数据集的信息 print(boston.filename) # 文件路径
(二) 鸢尾花
这个数据集包含了150个鸢尾花样本,对应3种鸢尾花,各50个样本,以及它们各自对应的4种关于花外形的数据 ,适用于分类任务。
from sklearn import datasets # 导入库 iris = datasets.load_iris() # 导入鸢尾花数据 print(iris.data.shape,iris.target.shape) # (150, 4) (150,) print(iris.feature_names) # [花萼长,花萼宽,花瓣长,花瓣宽]
还可以在sklearndatasets_base.py文件中查看信息:3类,每类50个,共150个样本,维度(特征)为4,特征的数值是真实的,并且都是正数。
(三) 手写数字
共有1797个样本,每个样本有64的元素,对应到一个8x8像素点组成的矩阵,每一个值是其灰度值, target值是0-9,适用于分类任务。