sklearn中的数据预处理----good!! 标准化归一化在何时使用

http://scikit-learn.org/stable/auto_examples/cluster/plot_dbscan.html#example-cluster-plot-dbscan-py

Demo of DBSCAN clustering algorithm

https://chrisalbon.com/machine_learning/clustering/k-means_clustering/ 这里的iris聚类也用到了

k-Means Clustering

Preliminaries

# Load libraries
from sklearn import datasets
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

Load Iris Flower Dataset

# Load data
iris = datasets.load_iris()
X = iris.data

Standardize Features

# Standarize features
scaler = StandardScaler()
X_std = scaler.fit_transform(X)

Conduct k-Means Clustering

# Create k-mean object
clt = KMeans(n_clusters=3, random_state=0, n_jobs=-1)

# Train model
model = clt.fit(X_std)

Show Each Observation’s Cluster Membership

# View predict class
model.labels_

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 0, 0, 0, 2, 2, 2, 0, 2, 2, 2, 2, 2, 2, 2, 2, 0, 2, 2, 2,
       2, 0, 2, 2, 2, 2, 0, 0, 0, 2, 2, 2, 2, 2, 2, 2, 0, 0, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 0, 2, 0, 0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 2, 2,
       0, 0, 0, 0, 2, 0, 2, 0, 2, 0, 0, 2, 0, 0, 0, 0, 0, 0, 2, 2, 0, 0, 0,
       2, 0, 0, 0, 2, 0, 0, 0, 2, 0, 0, 2], dtype=int32)

Create New Observation

# Create new observation
new_observation = [[0.8, 0.8, 0.8, 0.8]]

Predict Observation’s Cluster

# Predict observation's cluster
model.predict(new_observation)

array([0], dtype=int32)

View Centers Of Each Cluster

# View cluster centers
model.cluster_centers_

array([[ 1.13597027,  0.09659843,  0.996271  ,  1.01717187],
       [-1.01457897,  0.84230679, -1.30487835, -1.25512862],
       [-0.05021989, -0.88029181,  0.34753171,  0.28206327]])

详细见：详见http://d0evi1.com/sklearn/preprocessing/

标准化

最小-最大规范化

规范化:正则化

特征二值化

标签二值化

类别特征编码

标签编码

含有异常值

生成多项式

一、标准化（Z-Score），或者去除均值和方差缩放

将数据按期属性（按列进行）减去其均值，并处以其方差。得到的结果是，对于每个属性/每列来说所有数据都聚集在0附近，方差为1。

二、将属性缩放到一个指定范围

除了上述介绍的方法之外，另一种常用的方法是将属性缩放到一个指定的最大和最小值（通常是1-0）之间，这可以通过preprocessing.MinMaxScaler类实现。

当然，在构造类对象的时候也可以直接指定最大最小值的范围：feature_range=(min, max)，此时应用的公式变为：

三、正则化（Normalization）

正则化的过程是将每个样本缩放到单位范数（每个样本的范数为1），如果后面要使用如二次型（点积）或者其它核方法计算两个样本之间的相似性这个方法会很有用。

Normalization主要思想是对每个样本计算其p-范数，然后对该样本中每个元素除以该范数，这样处理的结果是使得每个处理后样本的p-范数（l1-norm,l2-norm）等于1。

该方法主要应用于文本分类和聚类中。例如，对于两个TF-IDF向量的l2-norm进行点积，就可以得到这两个向量的余弦相似性。

2、可以使用processing.Normalizer()类实现对训练集和测试集的拟合和转换：

sklearn中的数据预处理----good!! 标准化归一化在何时使用

Examples using `sklearn.preprocessing.StandardScaler`

Python sklearn.preprocessing.MinMaxScaler() Examples

官方的dbscan聚类使用 StandardScaler

Demo of DBSCAN clustering algorithm

k-Means Clustering

Preliminaries

Load Iris Flower Dataset

Standardize Features

Conduct k-Means Clustering

Show Each Observation’s Cluster Membership

Create New Observation

Predict Observation’s Cluster

View Centers Of Each Cluster

详细见：详见http://d0evi1.com/sklearn/preprocessing/

标准化

最小-最大规范化

规范化:正则化

特征二值化

标签二值化

类别特征编码

标签编码

含有异常值

生成多项式

一、标准化（Z-Score），或者去除均值和方差缩放

二、将属性缩放到一个指定范围

三、正则化（Normalization）

sklearn中的数据预处理----good!! 标准化 归一化 在何时使用

Examples using sklearn.preprocessing.StandardScaler

Python sklearn.preprocessing.MinMaxScaler() Examples

官方的dbscan聚类使用 StandardScaler

Demo of DBSCAN clustering algorithm

k-Means Clustering

Preliminaries

Load Iris Flower Dataset

Standardize Features

Conduct k-Means Clustering

Show Each Observation’s Cluster Membership

Create New Observation

Predict Observation’s Cluster

View Centers Of Each Cluster

详细见：详见http://d0evi1.com/sklearn/preprocessing/

标准化

最小-最大规范化

规范化:正则化

特征二值化

标签二值化

类别特征编码

标签编码

含有异常值

生成多项式

一、标准化（Z-Score），或者去除均值和方差缩放

二、将属性缩放到一个指定范围

三、正则化（Normalization）

sklearn中的数据预处理----good!! 标准化归一化在何时使用

Examples using `sklearn.preprocessing.StandardScaler`