zoukankan      html  css  js  c++  java
  • 特征工程(2)-数据预处理区间缩放法

    https://www.deeplearn.me/1383.html

    区间缩放法原理

    最常见的就是使用最大最下值来进行处理,处理的公式如下

    y=xminmaxminy=x−minmax−min

    上述公式中 min 代表数据最小值,max 代表数据最大值

    1. from sklearn.preprocessing import MinMaxScaler
    2. tmp=MinMaxScaler().fit_transform(irisdata.data)
    3. print tmp[0:5]

    部分结果如下:
    [[ 0.22222222 0.625 0.06779661 0.04166667]
    [ 0.16666667 0.41666667 0.06779661 0.04166667]
    [ 0.11111111 0.5 0.05084746 0.04166667]
    [ 0.08333333 0.45833333 0.08474576 0.04166667]
    [ 0.19444444 0.66666667 0.06779661 0.04166667]]
    spark 中的区间缩放法

      1. >>>from pyspark.mllib.linalg import Vectors
      2. >>>from pyspark.sql import SQLContext
      3. >>>sqlContext=SQLContext(sc)
      4. >>>df = sqlContext.createDataFrame([(Vectors.dense([0.0]),), (Vectors.dense([2.0]),)], ["a"])
      5. >>> mmScaler = MinMaxScaler(inputCol="a", outputCol="scaled")
      6. >>> model = mmScaler.fit(df)
      7. >>> model.transform(df).show()
      8. +-----+------+
      9. | a|scaled|
      10. +-----+------+
      11. |[0.0]| [0.0]|
      12. |[2.0]| [1.0]|
  • 相关阅读:
    HTML中visibility:hidden 和 display:none 的区别及实例?
    新手css学习
    关于新手html的认识
    学习前端第一天(上午)
    0528学习笔记
    愉快的一天
    今日份学习的快乐
    javascript(2)
    javascript
    CSS基础(2)
  • 原文地址:https://www.cnblogs.com/yuluoxingkong/p/9010308.html
Copyright © 2011-2022 走看看