zoukankan      html  css  js  c++  java
  • 数据挖掘-EDA(Exploratory Data Analysis)

    定义

      探索性数据分析(Exploratory Data Analysis,EDA)是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。一般有以下几个目的:

    • 弄清楚数据的含义
    • 发现数据的结构
    • 锁定一些重要的特征(通过观察该特征不同值对应的label是不是有区别,同一个特征的不同取值label的分布差别越大,这个特征越有效)
    • 异常值以及离群数据的检测(类别极致不平衡以及方差很小
    • 结合行业背景选择合适的模型

    常用方法

    • 绘图方法

        1. 对原始数据绘图

        2. 绘制原始数据的一些统计学图(箱型图、小提琴图、直方图等)

        3. 多特征对比性绘图(查看不同的特征之间的关系)

    • 量化方法

        1. 计算偏度和锋度

        2. 区间估计

        3. 分类类型

    绘图方法

        

       

       

       

         

    量化方法:

    • 相关性分析

          先定义三类变量:

          1. 定类变量: 通过该变量可以进行分类,但是该变量没有实际的数值意义(例如性别,城市)。

          2. 定序变量: 不仅可以用来分类,还按某种规律排序,不同的定序变量可以比较大小,有排序的能力,但是之间的差值没有意义(例如消费能力,教育程度)。

          3. 定距变量: 可以比较大小,差值具有意义。(常见的连续变量,例如价格、购买数量)

          不同类型的方法相关性检测的方法是不同的:

             

    • 独立性分析

        利用MVtest检验两个变量是否相关。

        

      最后补充一点决策树是一个非参数方法。这意味着它不对数据的空间分布和分类结构做任何假设。而一般的多元线性模型假设各个特征之间是

    不相关的,如果两个特征的相关性过高则会有复共线性的影响,会降低多元线性模型的预测精度。

     

       

  • 相关阅读:
    win7 重装 docker 启动后无法启动错误解决
    ASP.NET MVC 播放远程服务器上的MP3文件
    ubuntu+mono+PetaPoco+Oracle+.net 程序部署
    .NET Core 2.0 问题杂记
    博客园挂了吗?
    Content-Type: application/vnd.ms-excel">
    Storm
    Razor语法
    类型后面加问号 int?
    Apache vue site configuration
  • 原文地址:https://www.cnblogs.com/z1141000271/p/12594775.html
Copyright © 2011-2022 走看看