zoukankan      html  css  js  c++  java
  • 数据分析流程 之 特征工程(持续更新中。。。)

    本文部分内容为了上传便捷使用截图。

    数据分析流程

    特征工程框架图:

    具体步骤及内容:

    1获取数据

    2 数据预处理

    2.1 特征工程

    2.1.1 特征理解

    拿到数据的第一件事情当然是看数据怎么样了,也就是看里面有什么特征,这些特征是什么意思,这个过程叫做特征理解。

    看看数据是不是结构化的,是不是有空缺数据,用一些图形看看数据长什么样?

    2.2.2 特征提升 清理数据

    这一步要做的是在数据理解的基础上,得到一个比较整齐的数据。

    把未结构化的数据结构化、缺失值处理、对数据标准化。其中标准化包括z-socre标准化,min-max标准化,还有L1和L2正则化

    这一步完成以后,我们基本上得到了一个干净、整齐一点的数据。

    但是这并不能保证我们的数据是和我们的模型强相关的,我们还不能把这些数据用在模型里面,还需要后续的处理。

     

    2.2.3 特征选择 去掉坏的特征

    有些特征和我们的模型不相关、有些特征是关联的,只需要保留一个就可以了。所以,我们要对这些特征进行选择处理。

     

    2.2.4 特征构造 构建未有的特征

    从我们已有的特征里面构建未有的特征,比如从图像的像素里面构建出来是哪类物体的特征。还有一种特征构建是从另外一个已有的数据集里面构建,比如匹配某个人的信息,这个过程叫做实体匹配。

     

    2.2.5 特征转换(降维)

     这一步里面重要的一步是特征约减,比如使用PCA算法进行降维处理。从众多的特征中选择对分类最重要的那些特征,去除原数据中的噪音。

     

    2.2.6 特征学习

    让我们使用机器学习算法来进行特征的学习,典型的如神经网络,它里面就有这种思想。

    以上内容为本小编日常学习中的笔记总结,仅供参考。

    如果错误之处,欢迎批评指正!

  • 相关阅读:
    Postgresql HStore 插件试用小结
    postgres-xl 安装与部署 【异常处理】ERROR: could not open file (null)/STDIN_***_0 for write, No such file or directory
    GPDB 5.x PSQL Quick Reference
    postgresql 数据库schema 复制
    hive 打印日志
    gp与 pg 查询进程
    jquery table 发送两次请求 解惑
    python 字符串拼接效率打脸帖
    postgresql 日期类型处理实践
    IBM Rational Rose软件下载以及全破解方法
  • 原文地址:https://www.cnblogs.com/Christina-Notebook/p/9908148.html
Copyright © 2011-2022 走看看