zoukankan      html  css  js  c++  java
  • 数据分析概览(整理)

    一:

    1 什么是数据

    数据是对销售等业务全过程记录下来的可以鉴别的符号。数据时销售业务全过程的属性数量、位置以及相通关系等等的抽象表示。

    2数据分析的目的

    让数据说话!!行动的向导!!杜绝浪费!!提供决策的依据!!

    3数据的分类

    按照数据的来源分为:人力资源数据,财务数据,营销数据,采购数据,仓储数据,生产数据,编辑数据

    4 运用统计方法应改遵循的原则

    坚持用数据说话的基本观点!!有目的的收集数据!掌握数据来源!认真整理数据!

    5统计分析流程

    确定问题确定分析目标--〉采用科学的方法收集数据--〉考察数据时效性整理数据--〉统计分析--〉出分析报告,提出解决方案或者建议

    数据分析的误区

    误区(1)展示的元素不宜大于三个

    误区(2)时间序列数据最好使用折线图,而不适合使用柱状图

    误区(3)研究用数据最好不使用三维立体图

    误区(4)为了避免图表的欺骗性,图线最好占据2/3至3/4的高度(调整Y轴的刻度)

    二:常用的数据分析方法

    总体:又叫母体,是研究对象的全体。比如:出版商的一个批次到货的全部都可以称为总体

    个体:构成总体的基本单位,称为个体。比如:每册书都是一个个体

    来货检验通常用抽样的方法进行,即从来货总件数种抽取一部分件数,并测试每件的有关册书是否够数的特性数据,进行统计分析后,对总体进行估计和判断。

    样本:又叫作子样,是从总体中抽出来的一部分个体的集合。

    对样本的特性进行测定,所得到的数据称为 样本值。

    当样本个数越多时候,分析结果越接近总体的数值,样本对总体的代表性就越好!

    学用的统计抽样方法主要有以下三种:随机抽样法,分层抽样法,系统抽样法

    随机抽样:指总体中每隔个体都有同等机会被抽到,这种抽样方法不能考虑抽取哪个样品,完全偶然方法抽样,常用抽签或者随机数表来抽取以保证样品代表性。当图书品种不多的时候,随即抽样是一种有效的抽样方法。

    分层抽样:分层抽样是先把总体按照研究内容密切有关的主要因素分类或者分层,然后再各个层 中按照随机原则抽取样本,分层抽样可以减少层内的差异,增加样本的代表性。当到货产品比较多的时候,分层抽样是一种有效的抽样方法。

    体统抽样:从总体中每隔K个个体抽出一各个个体的抽样方法,比值K是总体容量N与样本容量n之比;当出版商批量发货以及产品特别多的时候,并且容易作某种次序的整理的时候,系统抽样比分曾抽样好。

    总体,样本,数据之间的关系:

    总体---〉(抽样得到)样本----〉(测试)数据----〉(分析)结论------〉(管理)总体

    抽样的目的是通过样本来反应总体。

    描述总体数据离散程度的参数为方差@,描述总体数据中心倾向的数为均值u.若利用样本参数近似描述总体状况时候,可以利用样本方差近似代替总体方差,

    利用样本平均值X近似代替总体平均值P

    样本中位值:

    中位值是按照数据大小顺序排列位于数据中间的数值,中位值 记为X,若n为偶数,则取位于中间两个数值的平均值为中位值。

    样本极差

    样本极差表示一组数据分布的范围,是指数据中最大值与最小值的差:R=X(MAX)-X(MIN)

    样本的方差和样本标准偏差

    样本方差和样本标准差就是用来度量数据波动幅度大小的一个重要特征值,样本方差是一组数据中每一个数值与平均值之差的平房和的平均值,通常计为S的平方,样本方差的平方根S称作样本标准偏差,他与样本方差一样,是反应一组数据中每一个数据分散程度的特征值。

    层别法是所有手法中最基本的概念,即把多种多样的数据,因应用目的的需要分类成不同的“类别”,使之方便以后的分析。

    排列图

    公司要解决的问题很多,如何入手?

    事实上,大部分的问题,只要能找出几个影响较大的因素,并加以处置和控制,就可以解决问题的百分之八十以上。

    柏拉图是根据收集的数据,以不良的原因,不良状况发生的现象,有系统的加以项目别分类,计算出各个项目所产生的数据,以及所占的比例,在依照大小顺序排列,再加上累积值得图形。

    因果图:运用因果图有利于找到问题的症结所在,然后对症下药,解决问题。因果图在经营管理活动中,尤其在物流作业中,问题分析中有着广泛的用途。

    对策表:当利用鱼刺图确定了经营问题产生的主要原因后,有必要采取措施去消除这些原因,以达到改进的目的。这个时候可以采用对策表的方法。

    频数分布表:

    频数分布表是一种把分散和不规则的数据,整理成一个能顺着其度量的尺度,清楚地显示出该数据的集中趋势和离散程度的一种统计方法

    步骤如下:(1)从数据中找出最小值S和最大值L (2)决定组数(3)计算组距(4)求界限值(5)计算组中值(6)统计频数(7)列频数分布表

    直方图

    组中值:各组的下界限值与上界限值的平均值成为改组的组中值。

    频数:落在各组中的数据的个数成为频数。

    频数分布表示一种把分散和不规则的数据,整理形成一个能顺着其度量的尺度,清楚地显示出该数据的集中趋势和离散程度的一种统计方法。

  • 相关阅读:
    Scala进阶之路-idea下进行spark编程
    Scala进阶之路-Spark本地模式搭建
    Scala进阶之路-Scala高级语法之隐式(implicit)详解
    Scala进阶之路-Spark底层通信小案例
    Scala进阶之路-并发编程模型Akka入门篇
    Scala进阶之路-统计商家id的标签数以及TopN示例案例分析
    Scala进阶之路-Scala中的泛型介绍
    Scala进阶之路-尾递归优化
    Scala进阶之路-Scala特征类与unapply反向抽取
    Java基础-爬虫实战之爬去校花网网站内容
  • 原文地址:https://www.cnblogs.com/honkcal/p/2604523.html
Copyright © 2011-2022 走看看