zoukankan      html  css  js  c++  java
  • 数据挖掘——统计学分析(一:数据的整理与图示表示)

    数据预处理

    1、数据审核:检查数据中是否有错误

     原始数据->完整性:所调查的对象是否有遗漏。

                    

                    准确性:数据是否有错误、存在异常值

                             ->异常值 :记录错误,予以纠正;正确地值,予以保留。

     二手数据->适用性:明确数据的来源、口径、背景材料,以便确定数据是否符合分析研究的需要。

                    

                    时效性:对于时效性较强的问题,如果数据是滞后的对于研究就没有多大的意义。

     

    2、数据筛选

     工具:excel、spss,网上资料很多,这里不再赘述。

    3、数据排序

    1)按一定顺序排序,以便发现明显的特征或趋势;

    2)利于数据的纠错、重新归类、分组。


     品质数据的整理与展示

    预处理后的数据,需进一步做分类、分组。

    品质数据:分类数据、顺序数据

    1、分类数据的整理与图示

    分类数据:对事物的一种分类

    整理:列出所分的类别,计算出每一类别的频数、频率或比例、比率,制作频数分布表。

    目的:对数据及其特征进行初步地了解

    工具:excel、spss前期的数据分析,这些工具已经很智能了!

     图示:条形图、帕累托图、饼图、环形图

    2、顺序数据的整理与图示

    顺序数据:【转至百度百科】

    https://baike.baidu.com/item/%E9%A1%BA%E5%BA%8F%E6%95%B0%E6%8D%AE/9210375?fr=aladdin

    整理:列出所分的类别,计算出每一类别的频数、频率或比例、比率,制作频数分布表;还可计算累计频率(或频数)

    目的:对数据及其特征进行初步地了解

    工具:excel、spss前期的数据分析,这些工具已经很智能了!

     图示:条形图、帕累托图、饼图、环形图、累计频数分布图或频率图。

    数值数据的整理与展示

    数值型的数据除了可以用品质数据的整理和图示方法外,还有一些特殊的方法。

    1、数据的分组:观察数据的分布特征

    单变量值分组:适用于离散变量,其变量值较少。

    组距分组:适用于连续性型变量,其变量值较多。

     ex:分组方法及其制表过程

    step1:确定组数。组数的确定主要是用于数据特征的观测,因此具体需视其数据特征而定。

    step2:确定各组的组距。组距=组的上限-组的下限。组距的确定:(全部数据的上限-全部数据的下限)/组数

    step3:根据分组整理成频数分布表。

    2、数值型数据的图示

    分组数据:直方图

    未分组数据:茎叶图、箱线图

    茎叶图:反映原始数据分布形状、离散状况(是否对称、集中、存在离群点)

    工具:excel、spss都很方便

    箱线图:由一组数据的的最大值、最小值、中位数、两个四分位数

     时间序列数据——线图:反映随时间变化的特征

    多变量数据的图示:散点图、气泡图、雷达图

    散点图:2个变量之间的关系的刻画

    气泡图:3个变量之间的关系的刻画

    雷达图:多个变量之间的关系的刻画

    工具:excel、spss都很方便


  • 相关阅读:
    菜鸡学习之路之并查集
    Leetcode 28. 实现 strStr() python3
    Leedcode 67. 二进制求和 python3
    2020 高校战“疫”网络安全分享赛 misc ez_mem&dump & 隐藏的信息
    leetcode 709.转换成小写字母
    2020 MetasequoiaCTF 部分misc
    Linux任务在后台运行
    Linux网络监控(netstat)
    Linux中wget资源下载
    Linux远程登录+远程发送文件
  • 原文地址:https://www.cnblogs.com/Erma/p/9736479.html
Copyright © 2011-2022 走看看