zoukankan      html  css  js  c++  java
  • 1 数据 & 图表

    瞎逼逼:虽然是统计专业,但学艺不精。大学受过的专业训练很少,妥妥学渣。因此工作后决定重新复习,阅读材料为贾俊平的《统计学》第7版。每周更新。
    我不按照书里的逻辑顺序和所有知识点来写我的笔记,我写那些与我的工作比较有关的东西(想想之后觉得可以应用到工作中的数据的那些知识点),还会写写我觉得可以怎样应用到工作中,有些不太对的地方请大家多多指教~
    第一周的内容是第3章:数据的图表展示。
    1 数据审核:检查数据是否有错误。(完整性和准确性(异常值))
    2 比例与比率的区别
    比例是各部分的数据与全部数据之比;
    比率是不同类别数据之间的比值。
    3 数据分组
    单变量值分组:把每一个值分成一组。适合离散变量,且变量值较少时
    组距分组:适合连续变量或变量值较多的情况。
    3.1 关于组距分组
    步骤:
    ①确定组数。5-15组。
    ②确定各组的组距(各组的上限与下限之差)。组距=(最大值-最小值)/组数。
    ③根据分组编制频数分布表(组+频数+频率)。
    分组原则:不重不漏。
    ①对于连续变量:
    1.上组限不在内,a≤X<b.
    2.对上一个组的上限值采用小数点的形式。eg.10~11.99,12~13.99
    ②对于离散变量:相邻两组的组限间断。eg.140~149,150~159
    如果全部数据的最大值和最小值与其他数据相差很大,可以使用开口组。
    第一组:“xx以下”,最后一组:“XX以上”
    不等距分组:比如对于年龄的分组。
    实际工作应用:对商品的价格分段分组分析。毛利率、售罄率等

    4 向上累积和向下累积 

     适用于顺序数据,比如:不满意、一般、满意。 

     可以做累积分布图。

    上面简单说说数据,下面 进入图表内容:

    5 总述数据类型与主要图示方法

    5.1 品质数据(以下均属汇总表)

    条形图、饼图、环形图

    5.2  数值型数据

    原始数据:茎叶图、箱线图

    分组数据:直方图

    时间序列数据:线图

    多变量数据:散点图(二维)、气泡图(三维)、雷达图(多维) 

     5.3 关于 直方图

    ①左右两边的尾巴哪一边偏长,这说明左(右)偏。

    ②与条形图和柱状图的区别?

    首先,横着放的柱状图叫条形图~

    然后条形图和直方图的区别:

    1. 条形图是用长度表示频数;直方图是用面积表示各组频数(因为还有不等距分组哦,所以是用面积~高度表示每一组的频数,宽度表示每一组的组距);

    2.由于分组数据具有连续性,因此直方图的各条柱子是靠一起的,而柱形图是分开的;

    3.条形图主要是展示分类数据,直方图展示数值型数据。 

    5.4 未分组数值型数据的适用图形

    茎叶图 :展示数据的原始分布

    箱线图:可以展示数据的离散程度(通过箱线图的形状可以看出数据分布的特征),更常用法是用于比较

    关于箱线图的一点小摘抄:箱线图不能提供关于数据分布偏态的精确度量,数据集较大时反映的形状信息更加模糊,最好结合均值、标准差、偏度、分布函数等来描述数据集的分布形状。

    5.5 雷达图可以对比样本各部分的相似度。 


     以上图形在工作中的应用:

    条形图、饼图、线图很常用;

    箱线图、环形图、直方图、散点图、气泡图、雷达图、帕累托图我还没怎么用过。

    那我去研究一下使用公司的数据做出上面的图来吧~然后看能不能发现有趣的东西。

    跑路!

    下期再见! 

  • 相关阅读:
    MD支持新标签跳转
    线上问题cpu100处理记录
    OpenShift 4.6方式下OperatorHub的变化
    OpenShift 4.5.7 版本基础镜像下载
    GLPI企业使用(一),连接AD域,LDAP登录。
    GLPI配置文件说明:默认权限组
    企业服务器规划
    港股通转托管
    mui实现下拉刷新以及click事件无法响应问题
    asp.net core+websocket实现实时通信
  • 原文地址:https://www.cnblogs.com/dream-nalizi/p/11787503.html
Copyright © 2011-2022 走看看