zoukankan      html  css  js  c++  java
  • 数据分析概况02:《深入浅出统计学》——基本统计量1

    1.信息图形化:直方图,概率密度函数和累积分布函数
    直方图用于显示分组数值型数据,直方图用于表示定量数据,矩形之间没有间隔,数值通过连续的数字标度表示,长方形的面积与频数成正比(当数据区间宽度各不相等时,每个长方形的宽度反映每个区间的宽度,长方形的高度反映区间的频数密度
     
    概率密度分布函数(PDF):直方图归一化的结果。
    累积分布函数(CDF):累积频数归一化的结果.(折线图)
     
    2.集中趋势的量度——平均数(均值μ,中位数,众数)
    平均数 计算方法 何时使用
    均值μ μ=∑X/n=∑fX/∑f
    在数据非常对称,且仅显示出一种趋势时使用。
    均值对于异常值(极值)不敏感,但是对于抽样数据更加稳定。
    中位数 按顺序排列数字,从最小排列到最大值;如果有奇数个数值,则中位数为位于中间的数值。如果有n个数,则中位数的位置为(n+1)/2;若果有偶数个数值,则将两个中间数相加,然后除以2.中间位置的算法是:(n+1)/2,两个中间数分别位于这个中间位置的两侧。
    在数据非常对称,且仅显示出一种趋势时使用。
    均值对于异常值(极值)不敏感,但是对于抽样数据更加稳定。
    众数 频数最大的数值。众数可能不止一个。如果有一个以上的数值具有最大频数,则每一个这样的数值都是众数。如果数据看上去体现了多种趋势或多批数据,则为每批数据给出一个众数。 在遇到类别数据时使用。当数据可以分为两个或更多组时使用。
     
    分散性:全距,四分位距等3.分散性与变异性
    全距(极差):使用全距区分数据集,仅描述了数据的宽度,没有描述数据的分布形态.
    四分位距:上四分位数-下四分位数,与全距相比,较少受到异常值。(下四分位数:n/4,若为整数,则取n/4这个位置和下个位置的中间,取这两个位置上的数值的平均值;若不为整数,则向上取整。上四分位数:3n/4,若为整数,则为3n/4这个位置和下个位置的中间,取这两个位置上的数值的平均值;若不为整数,向上取整。
    箱线图绘制各种“距”,显示数据的全距,四分位距以及中位数。
     
     
    变异性:观察每个数值与均值的距离。越小与均值越接近。
    平均距离:正负距离容易相互抵消。
    方差:防止距离与距离之间相互抵消。
    方差=∑(X-μ )2/n=∑(X-μ )(X-μ ) /n=∑x2/n-μ2
    标准差(σ)=√方差
    标准分:z=(x-μ)/σ
    比较不同数据集中的数据,对不同环境下的相关数据进行比较,将这些数据集转换成更通用的分布形态(均值为0,标准差为1 ),同时确保基本形状不变。
     
    异常值监测:异常值定义为偏离均值三个标准差(数值的标准分不在-3和3之间)的数值。
  • 相关阅读:
    2013年第四届蓝桥杯C/C++B组省赛题目解析
    C++编程基础练习
    网络中TCP、IP、MAC、UDP的头部格式信息
    对C语言中指针的入门理解
    Linux命令_搜索文件
    【总结】牛客职播第九期:您的美团点评offer已送到门口,快来与我们一起影响世界!
    蓝桥杯题库基础练习:进制转换
    SQL存在一个表而不在另一个表中的数据, 更新字段为随机时间
    使用资源文件(内存)中的字体 或 使用文件中的字体
    C# 给某个方法设定执行超时时间 C#如何控制方法的执行时间,超时则强制退出方法执行 C#函数运行超时则终止执行(任意参数类型及参数个数通用版)
  • 原文地址:https://www.cnblogs.com/alicia-Programming/p/5191539.html
Copyright © 2011-2022 走看看