zoukankan      html  css  js  c++  java
  • 机器学习之数据探索——数据特征分析(对比分析与统计量分析)

    在数据探索工作中,作为数据特征分析的角度,对比分析、统计量分析同样是发掘数据间关系与数据特征的重要渠道。

    1 对比分析

    对比分析是指把两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小,水平的高低,速度的快慢等,主要强调各角度的“比较”。

    对比分析主要有以下两种形式:
    1)绝对数比较
    适合指标在量级上不能差别过大,常用折线图、柱状图。
    2)相对数比较
    包括结构分析、比例分析、空间比较分析、动态对比分析等,例如:
    结构相对数:将同一总体内的部分数值与全部数值对比求得比重,用以说明事物的性质、结构或质量。如居民食品支出额占消费支出总额比重、产品合格率等。
    比例相对数:将同一总体内不同部分的数值进行对比,表明总体内各部分的比例关系。如人口性别比例、投资与消费比例等。
    比较相对数:将同一时期两个性质相同的指标数值进行对比,说明同类现象在不同条件下的数量对比关系。如不同行业、不同企业间某项指标对比等。
    动态相对数:将同一现象在不同时期的指标数值进行对比,用以说明发展发向和变化的速度。如发展速度、增长速度。

    由于数据的对比所涉范围极其宽广,各种可能的对比角度均可执行,所以从哪个方面进行对比还得依赖实际问题与关注点,本文不再示例。

    2 统计量分析

    统计量分析用于检查数据特征,把握数据整体的性质,包括检查数据的集中程度、离散程度和分布形状,通过这些统计量可以从整体上把握数据的重要性质。

    2.1 集中趋势

    常用指标有均值、中位数、众数等。

    2.2 离中趋势

    常用指标有标准差、四分位间距、极差、变异系数等。

    python中已内置了描述上述统计量的方法:

    2.3 分布形状

    分布形状使用偏度系数和峰度系数来度量,

    偏度系数是用于衡量数据分布对称性的统计量,反映数据分布偏移中心位置的程度。正态分布的偏度为0;偏度<0称分布具有负偏离(左偏态),此时数据位于均值左边的比右边的多,有个尾巴拖到左边,说明左边有极端值;偏度>0称分布具有正偏离(右偏态);偏度接近于0 ,认为分布对称。例如:分布有可能在偏度上偏离正态分布,则可用偏度来检验分布的正态性。偏度的绝对值数值越大表示其分布形态的偏斜程度越大。

    峰度系数是用于衡量数据分布陡峭或平滑的统计量,判定数据分布相对于正态分布而言是更陡峭还是平缓。例如:正态分布的峰度系数值是3;K>3的峰度系数说明观察量更集中,有比正态分布更短的尾部;K<3的峰度系数说明观测量不那么集中,有比正态分布更长的尾部。

    关于偏度与峰度的进一步阐释可以参考这篇博客:https://blog.csdn.net/u012735708/article/details/84750295

  • 相关阅读:
    fibnacci数列的python实现
    求最大公约数伪代码
    2020-2021-1 20201213信息安全专业导论第五周学习总结
    2020级201213《信息安全专业导论》第五周学习总结
    xor加密的python实现
    第四周学习总结
    BASE64编码
    师生关系
    2020-2021--1 20201205《信息安全专业导论》第2周学习总结
    师生关系
  • 原文地址:https://www.cnblogs.com/pythonfl/p/12442974.html
Copyright © 2011-2022 走看看