statistics复习 - 走看看

zoukankan html css js c++ java

statistics复习
概要

来源：

1660年，德国人使用statt记录人们出生、死亡信息。

定义：

用收集数据、分析数据、由数据得出结论的一组概念、方法。

思想核心：

随机性、规律性及彼此关系。

统计学根基：

1 概率，一个取值为0到1的数，告诉我们某一特定时间有多大机会发生。

2 变量，可能取2个或更多可能值的特征、特质或属性。

eg. 值变量（d3.js中的range，温度计，等等）；类别变量（性别）；序列变量（非常赞同、赞同、中立、反对、非常反对）。

　英文：变量－vairable，变量的值－value，变量的个体－element

　经验变量－日常生活－empirical variables；理论变量－数学方法推倒出的变量－theoretical variables-t-/z-/卡方/F-。

3 常量，总有一个固定的价值－constant

数据收集

问题？好数据与坏数据－如何提高数据收集质量？

1 定义变量，清楚测量的是什么，在做研究前，对变量必须有一个清晰、详尽的定义。

2 观测数据，observational study

　　总体，包含所有需研究的个体－population

　　普查，收集到总体中所有个体数据－census

　　样本，总体的一个被选中的部分－sample

　　　　随机样本，random sample

　　　　一个来自总体的样本，总体的每个个体有一个已知的或相等的机会被包含在该样本之中。是一个合适的、能够被推广应用于更大总体的统计样本。

　　　　方便样本，convenience sample

　　　　很容易很经济得到的样本。

　　　　　　简单随机样本，simple random sample，后续研究都基于此。

很难区分观测数据中混淆因素的作用，eg.投票中性别对投票结果的影响。　　

观测数据可能导致的错误及误差

考虑：样本是否合适、响应率、提问措辞、问题位置、访员

抽样误差，sampling error，一种主要的统计误差，＋－n%。

　　抽样误差大小依赖于得到样本的方式及样本的大小，公布任何一次抽样调查的时候都应该公布抽样误差的大小。

未响应误差，nonresponse error，另一种统计误差，包含在样本中的一部分人未回应调查而造成的误差。

　　低响应率可能对调查结果产生较大的影响。

响应误差，response error，可能避免的一种误差，调查中由于问题的提问方式、问题位置、访员影响而导致的误差。

3.实验数据，experimental data，在实验中控制实验对象而收集到的数据。

　　实验组，experimental group，接受实验的组别，可以为一个或多个。

　　对照组，control group，对比实验结果的组别，个体没有特殊待遇，一般为一个。

　　原则：随机选择实验对象。

　　以人为实验对象可能会有很多问题，如Hawthorne effect(霍桑效应)，应保持实验组与对照组受到同样的关注度。

实验设计者的三个目标：确定数据规模、设定研究计划、研究多个变量影响。

　　当几个变量同时影响一个结果变量时，多个变量同时研究比研究单个变量好得多。

　　

数据描述

数据分析包括三个内容：图-graph/表-table/计算-compute————三个内容都包含简化（便于理解、提取信息/也会丢失数据），寻找简化和完整的平衡点是难题。

图，帮助研究者提取信息，帮助把信息传达给其它人。警惕“坏图”。

　　分类变量，categorial variable，任两个观测值或者相同或者不同，不能被排序。

　　饼状图，Pie Chart, adv:展示分类变量/容易合并相邻的组

　　　　　　　　　　　 neg:展示具体观测数/类别过多时不清晰

　　条形图，Bar Chart, 等宽不等高条形图易于显示变量每一个取值，不适用于显示总变量数；等高不等宽柱状图适用于展示总变量数，不适用于展示个别类别数目，且类别过　　　　　　　多，展示效果下降。

　　　　　　条形图的二次划分-P49

　　度量变量，metric variable，可被测量的变量，如高度、收入、年龄。可测量出观测值与其他值的不同，或观测值比另外一个观测值多或少多少。

　　点线图，Lineplot，adv:数据信息清楚、无损失。

　　　　　　　　　　 neg:观测值多而越来越混乱。

　　盒状图，Boxplot，adv:分析若干个组的数据，利于数据简化。

　　　　　　　　　　　neg:不能恢复原始数据。

　　　　　　计算上四分位数Q3/下四分位数Q1/中位数median/四分位数差IQR(interquartile range)

　　茎叶图，Stemplot，adv:源数据被保留/分布排列清晰

　　　　　　　　　　　 neg:数据量多显示质量下降，间距过大枝叶显示过长，压缩枝叶长度小数据展示过密。

　　直方图，Histogram，adv:简化数据、展示大量数据。

　　　　　　　　　　　　neg:详细数据丢失。

　　　　　　单峰直方图（unimodal），双峰直方图（bimodal），对称直方图（symmetric），非对称直方图（skewed）。

　　　　　　许多变量都呈现单峰对称分布，如体重、智商...

　　　　　　避免绘制的过于高细或矮粗。

　　散点图，scatterplot，adv:展示两个变量的相关性最佳实践，简化了数据且没有丢失数据.

　　时间序列图，特殊的散点图，横轴为时间，纵轴为变量。数据简化的同时，保留了数据；但图的形状可能产生误导。

　　地图，具有地域性模式，也可能产生误导

　　 如何优秀作图？

　　 图优性，graphical excellency,在最短时间内，用最少笔墨，在最小的空间里给观众最多的思想。

　　图中垃圾，制图者天假的试图使图更吸引人或更有趣的特征。？有些图中垃圾可能会使读者更感兴趣。

　　数据密度，没平方英寸数据越多，数据密度越大，越富含信息。

　　某些情况下使用表而不是图，用于支持观点／组织数据。

统计汇总

将观测值汇总为一个数据，使之具有中心趋势或平均值/汇总变量之间的差别。

汇总，adv:数据高度简单化；neg:信息丢失。

平均数，对变量观察值进行计算后得到的一个数值。

　　中心值，average/central value，分为三种：

　　　　众数，mode，一个变量出现次数最多的值。

　　　　　　一个数据集有2个值经常出现，叫二众数分布。

　　　　　　adv：易于取得，对于分类变量是描述平均值最好方法；

　　　　　　neg:不经常使用，只能体现这个数据集很少的一部分。
#get the mode value of data set def mode(arr): dic = {} for item in data: if item in dic.keys(): dic[item] += 1 else: dic[item] = 1 maxNum = max(dic.values()) for keyName in dic: if dic[keyName] == maxNum: key = keyName break return keyName
　　　　中位数，median，将观测值分为同等数目的两组数，一半观测值小于它，另一半大于它。

　　　　求中位数：
#get the median value of data set def median(arr): arr.sort() num = len(arr) pos = 0 median = 0 if num%2 == 0: pos = num/2 -1 median = (arr[pos] + arr[pos + 1])/2 else: pos = (num-1)/2 +1 -1 median = arr[pos] return median
　　　　偶数个观测值取中间两个值得中点作为中位数。

　　　　　　中位数也称为第50个百分位数，另外还有25百分位数与75百分位数。

　　　　　　茎叶图中的中位数很好找，因为茎叶图已经排好序。

　　　　均值，mean，所有观察值相加除以观察值个数
#get the mean value of data set def mean(arr): num = len(arr) sum = 0 for i in arr: sum = sum + i mean = sum/num return mean
　　　　　　均值对极值十分敏感，当数据有极值，尽量不使用均值。

　　　　　　adv:对每一个观察值都加以利用。可以获得更多信息。

　　　　　　neg:计算麻烦，对极值敏感。

　　极差，range，观察值中最大值与最小值的差。
#get the range of data set def range(arr): minValue = min(arr) maxValue = max(arr) return maxValue - minValue
　　　　极差对极值十分敏感，去掉某些极端值是一种优秀策略。

　　　　四分位极差，interquartile range，去掉最大的25%数据与最小的25%数据，余下数据的极值之差。
#get the interquartile range of dataset def quatileRange(arr): arr.sort() iqR = 0 if(len(data)%2 == 0): q1Pos = (len(data) + 1) * 0.25 q3Pos = (len(data) + 1) * 0.75 q1_c = int(q1Pos) q1_d = q1Pos - q1_c q3_c = int(q3Pos) q3_d = q3Pos - q3_c q1 = arr[q1_c - 1] + (arr[q1_c + 1 - 1] - arr[q1_c - 1]) * q1_d q3 = arr[q3_c - 1] + (arr[q3_c + 1 - 1] - arr[q3_c - 1]) * q3_d iqR = q3 - q1 return iqR else: q1Pos = int((len(data)+1)*0.25) -1 q3Pos = int((len(data)+1)*0.75) -1 iqR = arr[q3Pos] - arr[q1Pos] return iqR #notice,qn_c代表整数部分，qn_d代表小数部分，计算机中数组是从0位开始，所以取值需要减1
　　　　极差/四分位极差适合用盒状图表示出来。

　　标准差，standard deviation，观察值与平均值的距离，一般用s表示。

　　　　求标准差，先得出方差，再开根号。求方差同理。方差是标准差的平方。
#get the standatd deviation of data set def stDev(arr): meanValue = mean(arr) sum = 0 for item in arr: sum += (item - meanValue) * (item - meanValue) s = float(sum)/(len(arr)-1 + 1) st = round(math.sqrt(s),2) return st
　　　　　注意，需要import math

　　　　标准误差，standard error，多个样本均值的标准差。

　　　　　　均值的标准误差比观测值的标准差小。

　　　　　　标准误差同样可以由一列中位数或者一列标准差计算得到。

　　　　　　？标准误差的计算公式不统一

　　　　标准得分，standard scores，某一观测值减均值的差除以标准差，数值的绝对值越大，更反常规。

　　　　　　任何变量的标准得分的大部分值都在-2.00至2.00之间，如果它的标准得分超过此区间，那么这个观测值就不合寻常。
#get the standard scores of data set def standardScores(objValue,arr): meanValue = mean(arr) stanDevi = stDev(arr) stanScores = (objValue - meanValue)/stanDevi return stanScores
概率

0-1之间的一个数，它告诉我们一件事发生的经常程度。

得到概率：

　　1.利用等可能性事件

　　2.利用相对频数，基于大量实验。

　　3.利用主观概率subjective probability，当事件不能被重复度量　

　　计算两个不可能同时发生的事件的概率，可以相加/计算两个事件同时发生的概率，将两个概率相乘　　　

优势，odds，反对一个事件的优势：一个事件不发生：发生的可能性。

　　优势应该用整数表示，如4：9，兑换成概率为（4+9）/9

计算复杂事件的概率的方案：二项分布及Poisson分布

　　二项分布公式（binomial distribution）：n个实验中成功的次数分布。

　　二项变量（binomial variable）：问题中两个值中某一个值出现的次数。

　　　　二项分布通常在小样本中应用，大样本使用二项分布的正态相似（normal approximation to the binomial distribution）
#get binomial distrubution def binomialDistri(m, n, p): calLeft = math.factorial(m)/(math.factorial(n) * math.factorial(m-n)) calRight = pow(p,n) * pow((1-p),(m-n)) return calLeft * calRight;
m代表样本众数，n代表成功次数，p代表成功发生的概率，如4个小孩中生2个为女孩的概率，女孩出生率为0.49，则mnp分别为4、2、0.49

　　Possion分布，当一个事件出现的可能性非常小，且有很多可能值，使用柏松分布。
#get possion distribution def possionDistri(u, x): p=pow(math.e, -u) * pow(u, x)/ math.factorial(x) return p
math.e代表自然对数的底数，u代表事件发生次数的均值，x代表事件发生了几次，如每小时有人发短信的均值为3，求解每小时收到5条短信的概率，u=3,x=5

　　超几何分布，hypergeometric distribution，样本很少用于分析两个分类变量。

还可以计算二项分布、泊松分布的均值、标准差。

连续变量，continuous variable，任意两个值之间还有其它的值。四个理论变量有助于分析概率，分别为z，t，卡方(x2)，F变量。

　　标准正态Z分布（钟型曲线），特征是对称性，中点两边曲线下的面积相等。

　　　　标准正态分布Standard normal distribution的均值为0，标准差为1。

　　　　z值比例的和为1。

　　　　z分布的主要作用在于找到一个特别的值及比它更极端的z值的概率。（假设检验中还会讨论）。

　　t-分布，t-distribution也叫学生分布，student's t。

　　　　自由度，degrees of freedom，d.f，t分布有一个族，自由度是它们的标记，样本数的大小部分决定使用哪个自由度。

　　　　t分布在其均值周围的聚集程度比正态分布差一些。

　　　　t分布的自由度越大，则越接近正态分布。自由度大于50，t分布与z分布基本相同，d.f最大值为100，此后可以用z代替t分布。

　　卡方分布，它是一族分布，编号同样叫自由度。

　　　　它没有负值，形状并不对称。

　　　　我们在某一自由度下计算卡方分布的概率，如果这个概率很小，那么这个值就是不寻常的，意味着样本得到的结果不寻常。（假设检验中深入）。

　　F分布，它是两个卡方分布的比率，分子X服从自由度K1的卡方分布，坟墓Y服从自由度K2的卡方分布。

　　　　F分布是非负的，非对称的。

　　　　自由度越小，F值越大。

　　　　在特定的自由度下，如果一个F分布的值大于这个自由度的边缘概率，那么这个值就是一个不寻常值。

　　使用T，卡方及F分布，应假定数据服从正态分布，因为它们都衍生于正态分布。

　　任何概率都建立在某种假设为真的前提下。

　　　　作出假设->收集数据->计算概率->假设检验

　　尾概率，tail probability，分布于概率分布的尾部。

　　P-值，有关总体的某些假设下，观察值或极端值出现的概率。

　　风险和利益间达到平衡的过程，叫做决策分析（decision analysis）。

　　　　人们常常对小概率事件作出过度反应。

估计
这是我的个人日记本
查看全文

相关阅读:
linux下FFmpeg编译生成ffplay
linux下ffmpeg安装
 linux之x86裁剪移植---字符界面sdl开发入门
 Linux忘记开机密码怎么办？
linux命令--ldconfig和ldd用法
 linux命令之 ifconfig
Linuxshell脚本之if条件判断
 redis之django-redis
深刻理解Python中的元类(metaclass)
【Django错误】OSError: raw write() returned invalid length 14 (should have been between 0 and 7)

原文地址：https://www.cnblogs.com/valentineisme/p/4251684.html