zoukankan      html  css  js  c++  java
  • 数据分析分析方法

    • 定性分析

      • 对于定性变量,常常根据变量的分类类型来分组,可以采用饼图或者条形图来描述定性变量的分布,饼图的每一个类型的百分比或频数,根据定性变量的类型数目将饼图分成几个部分,每一个部分的大小与每一类型频数成正比;条形图的高度代表每一类型的百分数或频率,条形图的宽度没有意义.
    • 对比分析

      • 对比分析是指把两个联系的指标进行比较,从数量上展示和说明研究对象规模的大小,水平的高低,速度的快慢,以及各种关系是否协调.特别适用于指标间所谓横纵向的比较.时间序列的分析比较.在对比分析中,选择合适的对比标准(控制变量)是十分关键的步骤,只有选择合适,才能做出客观的评价,选择不合适,评价可能得出错误的结论 
      1. 绝对数比较:绝对数比较时利用绝对数进行比较,从而寻找差异的一种方法
      2. 相对数比较:相对数比较时由两个联系的指标对比计算的,用以反映客观现象之间数量联系程度的综合指标,其数值表现为相对数.由于研究目的和对比基础的不同相对数可以分为以下几种:
        1. 结构相对数:将同一总体内的部分数值与全部数值对比求得比重,用以说明事物的性质,结构或质量.如居民食品支出额占消费支出总额比重,产品合格率等
        2. 比例相对数:将同一总体内不同部分的数值进行对比,表明总体内各部分的比例关系,如人口性别比例,投资与消费比例
        3. 比较相对数:将同一时期两个性质相同的指标数值进行对比,说明同类现象在不同空间条件下的数量对比关系.如不同地区商品价格对比,不同行业,不同企业某项指标对比等
        4. 强度相对数:将两个性质不同但有一定联系的总量指标进行对比,用以说明现象的强度.密度和普遍程度.如人均国内生产总值用"元/人"表示,人口密度用"人/平方公里"来表示,也有用百分数或千分数表示的,入人口出生率用%.表示
        5. 计划完成程度相对数:在某一时期实际完成数与计划数的对比,用以说明计划完成的程度
        6. 动态相对数:将同一现象在不同时期的指标数值进行对比,用以说明发展方向和变化的速度,如发展速度,增长速度等.
    • 统计量分析

      • 用统计指标对定量数据进行统计描述,常从几种趋势和离中趋势两个方面进行分析.
      • 平均水平的指标是对个体几种趋势的度量,使用最广泛的是均值和中位数反映变异程度的指标则是对个体离开平均水平的度量,使用较广泛的标准差(方差),四分位间距
    • 集中趋势度量

      1. 均值:均值是所有数据的平均值,如果求n个原始观察数据的平均值计算公式:
      2. 有时为了反映在均值中不同成分所占的不同重要程度,为数据集中的每一个x赋予w,这就得到了加权平均值的计算公式:
      3. 频率分布直方图和加权平均数是类似的计算公式:
    • 作为一个统计量,均值的主要问题是对极端值很敏感.如果数据中存在极端值或者数据是偏态分布的,那么均值就不能很好地度量数据的集中趋势.为了消除少数极端值的影响,可以使用截断均值或者中位数来度量数据的集中趋势.截断均值是去掉高,低端极值之后的平均数
      1. 中位数:中位数是将一组观察值按从大到小的顺序排列,位于中间的那个数.既在全部数据中,大于和小于中位数的数据个数相等.
        1. 当n为奇数时:
        2. 当n为偶数时:
      2. 众数:众数是指数据集中出现最频繁的值.众数并不经常用来度量定性变量的中心位置,更适用于定性变量.众数不具有唯一性.当然,众数一般用于离散变量而非连续性变量 
    • 离中趋势度量

        • 极差: 极差 = 最大值 - 最小值, 极差对数据集的极端值非正常敏感,并且忽略了位于最大值与最小值之间的数据的分布情况
        • 标准差:标准差度量数据偏离均值的程度计算公式:
          1. 标准差与平均值定义公式
          2. 变异系数:变异系数度量标准差相对于平均值的离中趋势,计算公式:
            1. 变异系数主要是用来比较两个或多个具有不同单位或不同波动幅度的数据集的离中趋势
          3. 四分位数间距四分位数包括上四分位数,将所有数值由小到大排列并分成四等份,处于第一个分割点位置的数值是下四分位数,处于第二个分割点位置(中间位数)的数值是中位数,处于第三个分割点位置的数值是上四分位数.
            1. 四分位数间距,是上四分位数Qu与下四分位数Ql之差,期间包含了全部全部观察值的一半,其值越大,说明数据的变异程度越大,反之,说明变异程度越小
            2. 变异系数:变异系数度量标准差相对于平均值的离中趋势,计算公式:
              1. 变异系数主要是用来比较两个或多个具有不同单位或不同波动幅度的数据集的离中趋势
            3. 四分位数间距:
              1. 四分位数包括上四分位数,将所有数值由小到大排列并分成四等份,处于第一个分割点位置的数值是下四分位数,处于第二个分割点位置(中间位数)的数值是中位数,处于第三个分割点位置的数值是上四分位数.
              2. 四分位数间距,是上四分位数Qu与下四分位数Ql之差,期间包含了全部全部观察值的一半,其值越大,说明数据的变异程度越大,反之,说明变异程度越小
          4. import pandas as pd
            
            data = pd.read_csv("final_dynamic_score_20190201.csv")
            
            statistics = data.describe()  # 保存基本统计量
            
            statistics.loc["range"] = statistics.loc["max"] - statistics["min"]  # 极差
            
            statistics.loc["var"] = statistics.loc["std"]/statistics.loc["mean"]  # 变异系数
            
            statistics.loc["dis"] = statistics.loc["75%"] - statistics.loc["25%"]  # 四分位数间距
            
            print statistics
        • 周期性分析

          • 周期性分析是探索某个变量是否随着时间变化而呈现出某种周期变化趋势.时间尺度相对较长的周期性趋势有年度周期性趋势,季节性周期趋势,相对较短的有月度周期性趋势,周度周期性趋势,甚至更短的天,小时周期性趋势.

      贡献度分析

        • 贡献度分析又称帕累托分析,它的原理是帕累托法则,又称20/80定律.同样的投入放在不同的地方会产生不同的效益.例如,对于一个公司来讲,80%的利润常常来自于20%最畅销的产品,而其他80%的产品只产生了20%的利润.
      • 相关性分析

        • 分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程称为相关分析
        • 直接绘制散点图:判断两个变量是否具有线性相关关系的的最直观的方法是直接绘制散点图
        • 绘制散点图矩阵:需要同时考察多个变量间的相关关系,一一绘制他们之间的简单散点图是十分麻烦的.此时可利用散点图矩阵同时绘制各变量间的散点图,从而快速发现多个变量间的主要相关性,这在进行多元线性回归时显得尤为重要
      • 计算相关系数

        • 为了更加准确地描述变量之间的线性相关程序,可以通过计算相关系数进行相关分析,在二元变量的相关分析过程中比较常用的又Person相关系数,Sperarman秩相关系数和判定系数.
        • Person相关系数:一般用于分析两个连续性变量之间的关系,其计算公式:
        • 相关系数r的取值范围: -1 <= r <= 1
          1. r > 0位正相关,r < 0位负相关
          2. | r | = 0表示不存在线性关
          3. | r | = 1表示完全线性相关
        • 0<| r |<1表示存在不同程度线性相关:
          1. | r | <= 0.3为不存在线性相关
          2. 0.3 < | r | <= 0.5 为低度线性相关
          3. 0.5 < | r | <= 0.8为显著线性相关
          4. | r | > 0.8 为高度线性相关
      • Spearman秩相关系数
        1. Pearson线性相关系数要求连续变量的取值服从正太分布.不服从正太分布的变量,分类或等级变量之间的关联性可采用Spearman秩相关系数.也称等级相关系数来描述
        2. 对两个变量成对的取值分别按照从小到大(或者从大到小)顺序编秩,Ri代表xi的秩次,Qi代表yi的秩次,Ri-Qi为xi,yi的秩次之差.(秩次我的理解就是去掉从1开始的索引,当有一样的数存在是,要算平均秩次,因为一个变量的相同的取值必须要有相同的秩次)
        3. 在实际应用计算中,上述两种相关系数都要对其进行假设检验,使用t检验方法检验其显著水平以确定其相关程度.研究表明,在正太分布假定下,Spearman秩相关系数与Pearson相关系数在效率上是等价的,而对于连续测量数据,更适合用Pearson相关系数来进行分析
      • 判定系数
        1. 判定系数是相关系数的平方,用r2表示;用来衡量回归方程对y的解释程度.判定系数的取值范围: 0 <= r2 <= 1.r2越接近于1,表明x与y之间的相关性越强;r2越接近于0,表明两个变量之间几乎没有直线相关的关系. 
        2. pandas提供了一个corr()函数来得出相关系数矩阵,既给出任意两个事物之间的的相关系数,corr()["事物名称1"].corr(data[u'事物名称2'])  只计算事物1和事物2之间的相关性

          

  • 相关阅读:
    详解JavaScript中的this
    java静态代理与动态代理简单分析
    BZOJ1263 [SCOI2006]整数划分
    BZOJ1258 [CQOI2007]三角形
    BZOJ1237 [SCOI2008]配对
    BZOJ1257 [CQOI2007]余数之和
    BZOJ1103 [POI2007]大都市
    BZOJ1061 [NOI2008]志愿者招募
    BZOJ1050 [HAOI2006]旅行
    BZOJ1055 [HAOI2008]玩具取名
  • 原文地址:https://www.cnblogs.com/ljc-0923/p/11710540.html
Copyright © 2011-2022 走看看