zoukankan      html  css  js  c++  java
  • statistics复习

    概要


    来源:

    1660年,德国人使用statt记录人们出生、死亡信息。

    定义:

    用收集数据、分析数据、由数据得出结论的一组概念、方法。

    思想核心:

    随机性、规律性及彼此关系。

    统计学根基:

    1 概率,一个取值为0到1的数,告诉我们某一特定时间有多大机会发生。

    2 变量,可能取2个或更多可能值的特征、特质或属性。

       eg. 值变量(d3.js中的range,温度计,等等);类别变量(性别);序列变量(非常赞同、赞同、中立、反对、非常反对)。

     英文:变量-vairable,变量的值-value,变量的个体-element

     经验变量-日常生活-empirical variables;理论变量-数学方法推倒出的变量-theoretical variables-t-/z-/卡方/F-。

    3 常量,总有一个固定的价值-constant

    数据收集


    问题?好数据与坏数据-如何提高数据收集质量?

    1 定义变量,清楚测量的是什么,在做研究前,对变量必须有一个清晰、详尽的定义。

    2 观测数据,observational study

      总体,包含所有需研究的个体-population

      普查,收集到总体中所有个体数据-census

      样本,总体的一个被选中的部分-sample

        随机样本,random sample

        一个来自总体的样本,总体的每个个体有一个已知的或相等的机会被包含在该样本之中。是一个合适的、能够被推广应用于更大总体的统计样本。

        方便样本,convenience sample

        很容易很经济得到的样本。

          简单随机样本,simple random sample,后续研究都基于此。

    很难区分观测数据中混淆因素的作用,eg.投票中性别对投票结果的影响。  

    观测数据可能导致的错误及误差

    考虑:样本是否合适、响应率、提问措辞、问题位置、访员

    抽样误差,sampling error,一种主要的统计误差,+-n%。

      抽样误差大小依赖于得到样本的方式及样本的大小,公布任何一次抽样调查的时候都应该公布抽样误差的大小。

    未响应误差,nonresponse error,另一种统计误差,包含在样本中的一部分人未回应调查而造成的误差。

      低响应率可能对调查结果产生较大的影响。

    响应误差,response error,可能避免的一种误差,调查中由于问题的提问方式、问题位置、访员影响而导致的误差。

    3.实验数据,experimental data,在实验中控制实验对象而收集到的数据。

      实验组,experimental group,接受实验的组别,可以为一个或多个。

      对照组,control group,对比实验结果的组别,个体没有特殊待遇,一般为一个。

      原则:随机选择实验对象。

      以人为实验对象可能会有很多问题,如Hawthorne effect(霍桑效应),应保持实验组与对照组受到同样的关注度。

    实验设计者的三个目标:确定数据规模、设定研究计划、研究多个变量影响。

      当几个变量同时影响一个结果变量时,多个变量同时研究比研究单个变量好得多。

      

    数据描述


    数据分析包括三个内容:图-graph/表-table/计算-compute————三个内容都包含简化(便于理解、提取信息/也会丢失数据),寻找简化和完整的平衡点是难题。

    图,帮助研究者提取信息,帮助把信息传达给其它人。警惕“坏图”。

      分类变量,categorial variable,任两个观测值或者相同或者不同,不能被排序。

      饼状图,Pie Chart, adv:展示分类变量/容易合并相邻的组

                neg:展示具体观测数/类别过多时不清晰

      条形图,Bar Chart, 等宽不等高条形图易于显示变量每一个取值,不适用于显示总变量数;等高不等宽柱状图适用于展示总变量数,不适用于展示个别类别数目,且类别过       多,展示效果下降。

          条形图的二次划分-P49

      度量变量,metric variable,可被测量的变量,如高度、收入、年龄。可测量出观测值与其他值的不同,或观测值比另外一个观测值多或少多少。

      点线图,Lineplot,adv:数据信息清楚、无损失。

                neg:观测值多而越来越混乱。 

      盒状图,Boxplot,adv:分析若干个组的数据,利于数据简化。

               neg:不能恢复原始数据。

          计算上四分位数Q3/下四分位数Q1/中位数median/四分位数差IQR(interquartile range)

      茎叶图,Stemplot,adv:源数据被保留/分布排列清晰

                 neg:数据量多显示质量下降,间距过大枝叶显示过长,压缩枝叶长度小数据展示过密。

      直方图,Histogram,adv:简化数据、展示大量数据。

                neg:详细数据丢失。

          单峰直方图(unimodal),双峰直方图(bimodal),对称直方图(symmetric),非对称直方图(skewed)。

          许多变量都呈现单峰对称分布,如体重、智商...

          避免绘制的过于高细或矮粗。

       散点图,scatterplot,adv:展示两个变量的相关性最佳实践,简化了数据且没有丢失数据.

       时间序列图,特殊的散点图,横轴为时间,纵轴为变量。数据简化的同时,保留了数据;但图的形状可能产生误导。

       地图,具有地域性模式,也可能产生误导

       如何优秀作图?

       图优性,graphical excellency,在最短时间内,用最少笔墨,在最小的空间里给观众最多的思想。

       图中垃圾,制图者天假的试图使图更吸引人或更有趣的特征。?有些图中垃圾可能会使读者更感兴趣。

       数据密度,没平方英寸数据越多,数据密度越大,越富含信息。

       某些情况下使用表而不是图,用于支持观点/组织数据。

    统计汇总


    将观测值汇总为一个数据,使之具有中心趋势或平均值/汇总变量之间的差别。

    汇总,adv:数据高度简单化;neg:信息丢失。

    平均数,对变量观察值进行计算后得到的一个数值。

      中心值,average/central value,分为三种:

        众数,mode,一个变量出现次数最多的值。 

          一个数据集有2个值经常出现,叫二众数分布。

          adv:易于取得,对于分类变量是描述平均值最好方法;

          neg:不经常使用,只能体现这个数据集很少的一部分。

    #get the mode value of data set
    def mode(arr):
    	dic = {}
    	for item in data:
    		if item in dic.keys():
    			dic[item] += 1
    		else:
    			dic[item] = 1
    	maxNum = max(dic.values())
    	for keyName in dic:
    		if dic[keyName] == maxNum:
    			key = keyName
    			break
    
    	return keyName
    

        中位数,median,将观测值分为同等数目的两组数,一半观测值小于它,另一半大于它。

        求中位数:

    #get the median value of data set
    def median(arr):
    	arr.sort()
    	num = len(arr)
    	pos = 0
    	median = 0
    	if num%2 == 0:
    		pos = num/2 -1
    		median = (arr[pos] + arr[pos + 1])/2
    	else:
    		pos = (num-1)/2 +1 -1
    		median = arr[pos]
    
    	return median
    

        偶数个观测值取中间两个值得中点作为中位数。

          中位数也称为第50个百分位数,另外还有25百分位数与75百分位数。

          茎叶图中的中位数很好找,因为茎叶图已经排好序。

        均值,mean,所有观察值相加除以观察值个数

    #get the mean value of data set
    def mean(arr):
    	num = len(arr)
    	sum = 0
    	for i in arr:
    		sum = sum + i
    
    	mean = sum/num
    	return mean
    

          均值对极值十分敏感,当数据有极值,尽量不使用均值。

          adv:对每一个观察值都加以利用。可以获得更多信息。

          neg:计算麻烦,对极值敏感。

       极差,range,观察值中最大值与最小值的差。

    #get the range of data set
    def range(arr):
    	minValue = min(arr)
    	maxValue = max(arr)
    	return maxValue - minValue
    

        极差对极值十分敏感,去掉某些极端值是一种优秀策略。

        四分位极差,interquartile range,去掉最大的25%数据与最小的25%数据,余下数据的极值之差。

    #get the interquartile range of dataset
    def quatileRange(arr):
    	arr.sort()
    	iqR = 0
    	if(len(data)%2 == 0):
    		q1Pos = (len(data) + 1) * 0.25
    		q3Pos = (len(data) + 1) * 0.75
    		q1_c = int(q1Pos)
    		q1_d = q1Pos - q1_c
    		q3_c = int(q3Pos)
    		q3_d = q3Pos - q3_c
    		q1 = arr[q1_c - 1] + (arr[q1_c + 1 - 1] - arr[q1_c - 1]) * q1_d
    		q3 = arr[q3_c - 1] + (arr[q3_c + 1 - 1] - arr[q3_c - 1]) * q3_d
    		iqR = q3 - q1
    		return iqR
    	else:
    		q1Pos = int((len(data)+1)*0.25) -1
    		q3Pos = int((len(data)+1)*0.75) -1
    		iqR = arr[q3Pos] - arr[q1Pos]
    		return iqR
    
    #notice,qn_c代表整数部分,qn_d代表小数部分,计算机中数组是从0位开始,所以取值需要减1

        极差/四分位极差适合用盒状图表示出来。

      标准差,standard deviation,观察值与平均值的距离,一般用s表示。

        求标准差,先得出方差,再开根号。求方差同理。方差是标准差的平方。

    #get the standatd deviation of data set
    def stDev(arr):
    	meanValue = mean(arr)
    	sum = 0
    	for item in arr:
    		sum += (item - meanValue) * (item - meanValue)
    		s = float(sum)/(len(arr)-1 + 1)
    		st = round(math.sqrt(s),2)
    	return st
    

         注意,需要import math

        标准误差,standard error,多个样本均值的标准差。

          均值的标准误差比观测值的标准差小。

          标准误差同样可以由一列中位数或者一列标准差计算得到。

          ?标准误差的计算公式不统一

        标准得分,standard scores,某一观测值减均值的差除以标准差,数值的绝对值越大,更反常规。

          任何变量的标准得分的大部分值都在-2.00至2.00之间,如果它的标准得分超过此区间,那么这个观测值就不合寻常。

    #get the standard scores of data set
    def standardScores(objValue,arr):
    	meanValue = mean(arr)
    	stanDevi = stDev(arr)
    	stanScores = (objValue - meanValue)/stanDevi
    	return stanScores
    

    概率


    0-1之间的一个数,它告诉我们一件事发生的经常程度。

    得到概率:

      1.利用等可能性事件

      2.利用相对频数,基于大量实验。

      3.利用主观概率subjective probability,当事件不能被重复度量 

      计算两个不可能同时发生的事件的概率,可以相加/计算两个事件同时发生的概率,将两个概率相乘   

    优势,odds,反对一个事件的优势:一个事件不发生:发生的可能性。

      优势应该用整数表示,如4:9,兑换成概率为(4+9)/9

    计算复杂事件的概率的方案:二项分布及Poisson分布

      二项分布公式(binomial distribution):n个实验中成功的次数分布。

      二项变量(binomial variable):问题中两个值中某一个值出现的次数。

        二项分布通常在小样本中应用,大样本使用二项分布的正态相似(normal approximation to the binomial distribution)

    #get binomial distrubution 
    def binomialDistri(m, n, p):
    	calLeft = math.factorial(m)/(math.factorial(n) * math.factorial(m-n))
    	calRight = pow(p,n) * pow((1-p),(m-n))
    	return calLeft * calRight;
    

    m代表样本众数,n代表成功次数,p代表成功发生的概率,如4个小孩中生2个为女孩的概率,女孩出生率为0.49,则mnp分别为4、2、0.49

      Possion分布,当一个事件出现的可能性非常小,且有很多可能值,使用柏松分布。

    #get possion distribution
    def possionDistri(u, x):
    	p=pow(math.e, -u) * pow(u, x)/ math.factorial(x)
    	return p
    

    math.e代表自然对数的底数,u代表事件发生次数的均值,x代表事件发生了几次,如每小时有人发短信的均值为3,求解每小时收到5条短信的概率,u=3,x=5

      超几何分布,hypergeometric distribution,样本很少用于分析两个分类变量。

    还可以计算二项分布、泊松分布的均值、标准差。

    连续变量,continuous variable,任意两个值之间还有其它的值。四个理论变量有助于分析概率,分别为z,t,卡方(x2),F变量。

      标准正态Z分布(钟型曲线),特征是对称性,中点两边曲线下的面积相等。

        标准正态分布Standard normal distribution的均值为0,标准差为1。

        z值比例的和为1。

        z分布的主要作用在于找到一个特别的值及比它更极端的z值的概率。(假设检验中还会讨论)。

      t-分布,t-distribution也叫学生分布,student's t。

        自由度,degrees of freedom,d.f,t分布有一个族,自由度是它们的标记,样本数的大小部分决定使用哪个自由度。

        t分布在其均值周围的聚集程度比正态分布差一些。

        t分布的自由度越大,则越接近正态分布。自由度大于50,t分布与z分布基本相同,d.f最大值为100,此后可以用z代替t分布。

      卡方分布,它是一族分布,编号同样叫自由度。

        它没有负值,形状并不对称。

        我们在某一自由度下计算卡方分布的概率,如果这个概率很小,那么这个值就是不寻常的,意味着样本得到的结果不寻常。(假设检验中深入)。

      F分布,它是两个卡方分布的比率,分子X服从自由度K1的卡方分布,坟墓Y服从自由度K2的卡方分布。

        F分布是非负的,非对称的。

        自由度越小,F值越大。

        在特定的自由度下,如果一个F分布的值大于这个自由度的边缘概率,那么这个值就是一个不寻常值。

      使用T,卡方及F分布,应假定数据服从正态分布,因为它们都衍生于正态分布。 

      任何概率都建立在某种假设为真的前提下。

        作出假设->收集数据->计算概率->假设检验

      尾概率,tail probability,分布于概率分布的尾部。

      P-值,有关总体的某些假设下,观察值或极端值出现的概率。

      风险和利益间达到平衡的过程,叫做决策分析(decision analysis)。

        人们常常对小概率事件作出过度反应。

    估计


    这是我的个人日记本
  • 相关阅读:
    模拟登录
    服务器的
    多线程爬虫
    新浪微博
    。。
    ** turtle模块和random模块
    收藏链接python--向大神学习
    126邮箱发送邮件测试1
    LabVIEW版本控制(转)
    正交编码器单端转差分
  • 原文地址:https://www.cnblogs.com/valentineisme/p/4251684.html
Copyright © 2011-2022 走看看