sklearn数据集
(一)机器学习的一般数据集会划分为两个部分
训练数据:用于训练,构建模型。
测试数据:在模型检验时使用,用于评估模型是否有效。
划分数据的API:sklearn.model_selection.train_test_split
示例代码如下:
from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split # 使用加载器读取数据并存入变量iris iris = load_iris() # 查验数据规模 print(iris.data.shape) # 用于输入的数据 #print(iris.data) # 标签 #print(iris.target) # 对数据进行随机分割 测试数据占总数据的30% 训练数据占总数据的70% x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=30) print('训练特征值:') print(x_train) print('训练目标值:') print(y_train) print('测试特征值:') print(x_test) print('测试目标值:') print(y_test)
(二)转换器
fit_transform等价于 fit+transform
fit_transform()函数输入数据直接转换。
fit()函数输入数据,但不做事。计算平均值,方差等
transform()函数进行数据的转换。
(三)估计器
在sklearn中,估计器(estimator)是一类实现了算法的API。
1.用于分类的估计器:
sklearn.neighbors k-近邻算法
sklearn.naive_bayes 贝叶斯
sklearn.linear_model.LogisticRegression 逻辑回归
sklearn.tree 决策树与随机森林
2.用于回归的估计器
sklearn.linear_model.LinearRegression 线性回归
sklearn.linear_model.Ridge 岭回归