[Python] sklearn - 走看看

zoukankan html css js c++ java

[Python] sklearn
1、skleran中包的命名规律

API帮助中每个大标题对应skleran源码文件夹下的一个文件夹（如preprocessing）

再下一级的是类（如Imputer），定义在文件夹中的py文件里，一般每个py文件中会定义多个类

2、sklearn中的主要对象（类）

估算器（estimator）：能够根据数据集对某些参数进行估算，通过fit()方法实现

转换器（transformer）：依赖通过fit()学习到的参数对数据进行转换，上面的例子中，Imputer既是估算器又是转换器

预测器（predictor）：根据给定数据集进行预测，如LinearRegression，通过predict()方法实现

3、skleran中对象包含的通用方法

fit()：对数据进行初步处理，求均值、方差等（一般用于训练集）

transform()：对数据进行进一步加工，如在SimpleImputer类中是根据每列的均值补上空缺元素（一般用于测试集）

fit_transform()：先fit()，再transform()（一般用于训练集）

pridict()：对数据进行分类、拟合等，得到最后结果

注意通用方法不是多态，只是定义了同样名字的方法而已，不同的方法定义在不同类中，命名空间互不冲突。sklearn这样设计的目的也是方便编程人员记忆

4、sklearn常用包使用说明

sklearn.datasets

fetch_mnist：获取MNIST数据集

sklearn.preprocessing

Imputer：处理缺失数据（最新版的sklearn中此类被命名为SimpleImputer，放到了sklearn.imputer中）

LabelEncoder：将文本标签转换为数字

StandardScaler：标准化数据，保证每个维度的数据方差为1，均值为0

sklearn.model_selection

StratifiedKFold：分层抽样

cross_val_score：折叠交叉验证

sklearn.linear_model

SGDClassifier：随机梯度下降分类器

sklearn.pipeline

pipeline

sklearn.cross_validation

train_test_split：将数据集打乱并划分为测试集合训练集

sklearn.metrics

confusion_matrix：得到真实集和预测集的混淆矩阵

precison_score：精度

recall_score：召回

f1_score：f1值

roc_curve：roc曲线

5、代码实例

例1：
>>> import numpy as np >>> from sklearn.impute import SimpleImputer >>> imp = SimpleImputer(missing_values=np.nan, strategy='mean') >>> imp.fit([[1, 2], [np.nan, 3], [7, 6]]) SimpleImputer(copy=True, fill_value=None, missing_values=nan, strategy='mean', verbose=0) >>> X = [[np.nan, 2], [6, np.nan], [7, 6]] >>> print(imp.transform(X)) [[4. 2. ] [6. 3.666...] [7. 6. ]]
例2：
from sklearn.preprocessing import StandardScaler data = [[0,0],[0,0],[1,1],[1,1]] scaler = StandardScaler() print(scaler.fit(data)) print(scaler.mean_) print(scaler.transform(data)) print(scaler.transform([[2,2]]))
例3：
>>> import numpy as np >>> from sklearn.linear_model import LinearRegression >>> X = np.array([[1, 1], [1, 2], [2, 2], [2, 3]]) >>> # y = 1 * x_0 + 2 * x_1 + 3 >>> y = np.dot(X, np.array([1, 2])) + 3 >>> reg = LinearRegression().fit(X, y) >>> reg.score(X, y) 1.0 >>> reg.coef_ array([1., 2.]) >>> reg.intercept_ 3.0000... >>> reg.predict(np.array([[3, 5]])) array([16.])
6、参考书

《Scikit-Learn与TensorFlow机器学习实用指南》

https://www.jianshu.com/p/9efbae6dbf8e

https://github.com/ageron/handson-ml

《利用Python进行数据分析》
查看全文

相关阅读:
sort
usaco-3.1-humble-pass
usaco-3.1-inflate-pass
usaco-3.1-agrinet-pass
usaco-2.4-fracdec-pass
usaco-2.4-comhome-pass
usaco-2.4-cowtour-pass
usaco-2.4-maze1-pass
usaco-2.4-ttwo-pass
usaco-2.3-concom-pass

原文地址：https://www.cnblogs.com/cxc1357/p/10474086.html