zoukankan      html  css  js  c++  java
  • sklearn学习4----预处理(1)标准化

    一、【标准化】scale:

    1、导入模块  from sklearn.preprocessing import scaler

    2、作用:直接将给定数据进行标准化

    3、使用代码

    X_scaled=scaler(X_data)
    X_scaled.mean(axis=0) #自己计算标准化之后的均值
    X_scalerd.std(axis=0) #自己计算标准化后的方差

    二、【标准化】StandardScaler

    1、导入模块  from sklearn.preprocessing import StandardScaler

    2、作用:可保存训练集中的均值、方差参数,然后直接用于转换测试集数据。

    3、使用代码:

    ss=StandardScaler()
    Xtrain_data=ss.fit_transform(train_data)  #标准化训练集然后保存训练集的均值和方差
    Xtest_data=ss.transform(test_data) #转换测试集数据
    print(ss.mean_) print(ss.var_)

    三、【缩放到指定范围(最大最小化)】MinMaxScaler

    1、导入模块:from sklearn.preprocessing import MinMaxScaler

    2、作用:将属性缩放到一个指定的最大和最小值(通常是1-0)之间,这样处理可对方差非常小的属性增强其稳定性,也可维持稀疏矩阵中为0的条目。

    3、使用代码

    '''
    preprocessing.MinMaxScaler(feature_range=(0, 1), copy=True) 
    
    计算公式: 
    X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0)) 
    X_scaled = X_std * (max - min) + min 
    其中 
    feature_range : tuple (min, max), default=(0, 1)
    '''
    
    minmaxscaler = MinMaxScaler()
    minmaxscaler.fit_transform(X)
    
    minmaxscaler.scale_
    minmaxscaler.min_

    四、【正则化】 Normalizer

    1、导入模块:from sklearn.preprocessing import Normalizer

    2、作用:对每个样本计算其p-范数,再对每个元素除以该范数,这使得每个处理后样本的p-范数(l1-norm,l2-norm)等于1。如果后续要使用二次型等方法计算两个样本之间的相似性会有用。

    3、使用代码

    normalizer =Normalizer().fit(X)
    normalizer.transform(X)
  • 相关阅读:
    第二十二节:类与对象后期静态绑定对象和引用
    WePHP的表单令牌验证
    第二十一节:类与对象对象的比较类型约束
    Windows下 C++ 实现匿名管道的读写操作
    Mongoose 利用实现HTTP服务
    C++ Qt 框架静态编译 操作记录
    使用Qt框架开发http服务器问题的记录
    把CMD下的color 方案遍历一遍
    C++学习笔记
    在1~10的整数范围随机5个不重复的整数
  • 原文地址:https://www.cnblogs.com/Lee-yl/p/9139612.html
Copyright © 2011-2022 走看看