概要
来源:
1660年,德国人使用statt记录人们出生、死亡信息。
定义:
用收集数据、分析数据、由数据得出结论的一组概念、方法。
思想核心:
随机性、规律性及彼此关系。
统计学根基:
1 概率,一个取值为0到1的数,告诉我们某一特定时间有多大机会发生。
2 变量,可能取2个或更多可能值的特征、特质或属性。
eg. 值变量(d3.js中的range,温度计,等等);类别变量(性别);序列变量(非常赞同、赞同、中立、反对、非常反对)。
英文:变量-vairable,变量的值-value,变量的个体-element
经验变量-日常生活-empirical variables;理论变量-数学方法推倒出的变量-theoretical variables-t-/z-/卡方/F-。
3 常量,总有一个固定的价值-constant
数据收集
问题?好数据与坏数据-如何提高数据收集质量?
1 定义变量,清楚测量的是什么,在做研究前,对变量必须有一个清晰、详尽的定义。
2 观测数据,observational study
总体,包含所有需研究的个体-population
普查,收集到总体中所有个体数据-census
样本,总体的一个被选中的部分-sample
随机样本,random sample
一个来自总体的样本,总体的每个个体有一个已知的或相等的机会被包含在该样本之中。是一个合适的、能够被推广应用于更大总体的统计样本。
方便样本,convenience sample
很容易很经济得到的样本。
简单随机样本,simple random sample,后续研究都基于此。
很难区分观测数据中混淆因素的作用,eg.投票中性别对投票结果的影响。
观测数据可能导致的错误及误差
考虑:样本是否合适、响应率、提问措辞、问题位置、访员
抽样误差,sampling error,一种主要的统计误差,+-n%。
抽样误差大小依赖于得到样本的方式及样本的大小,公布任何一次抽样调查的时候都应该公布抽样误差的大小。
未响应误差,nonresponse error,另一种统计误差,包含在样本中的一部分人未回应调查而造成的误差。
低响应率可能对调查结果产生较大的影响。
响应误差,response error,可能避免的一种误差,调查中由于问题的提问方式、问题位置、访员影响而导致的误差。
3.实验数据,experimental data,在实验中控制实验对象而收集到的数据。
实验组,experimental group,接受实验的组别,可以为一个或多个。
对照组,control group,对比实验结果的组别,个体没有特殊待遇,一般为一个。
原则:随机选择实验对象。
以人为实验对象可能会有很多问题,如Hawthorne effect(霍桑效应),应保持实验组与对照组受到同样的关注度。
实验设计者的三个目标:确定数据规模、设定研究计划、研究多个变量影响。
当几个变量同时影响一个结果变量时,多个变量同时研究比研究单个变量好得多。
数据描述
数据分析包括三个内容:图-graph/表-table/计算-compute————三个内容都包含简化(便于理解、提取信息/也会丢失数据),寻找简化和完整的平衡点是难题。
图,帮助研究者提取信息,帮助把信息传达给其它人。警惕“坏图”。
分类变量,categorial variable,任两个观测值或者相同或者不同,不能被排序。
饼状图,Pie Chart, adv:展示分类变量/容易合并相邻的组
neg:展示具体观测数/类别过多时不清晰
条形图,Bar Chart, 等宽不等高条形图易于显示变量每一个取值,不适用于显示总变量数;等高不等宽柱状图适用于展示总变量数,不适用于展示个别类别数目,且类别过 多,展示效果下降。
条形图的二次划分-P49
度量变量,metric variable,可被测量的变量,如高度、收入、年龄。可测量出观测值与其他值的不同,或观测值比另外一个观测值多或少多少。
点线图,Lineplot,adv:数据信息清楚、无损失。
neg:观测值多而越来越混乱。
盒状图,Boxplot,adv:分析若干个组的数据,利于数据简化。
neg:不能恢复原始数据。
计算上四分位数Q3/下四分位数Q1/中位数median/四分位数差IQR(interquartile range)
茎叶图,Stemplot,adv:源数据被保留/分布排列清晰
neg:数据量多显示质量下降,间距过大枝叶显示过长,压缩枝叶长度小数据展示过密。
直方图,Histogram,adv:简化数据、展示大量数据。
neg:详细数据丢失。
单峰直方图(unimodal),双峰直方图(bimodal),对称直方图(symmetric),非对称直方图(skewed)。
许多变量都呈现单峰对称分布,如体重、智商...
避免绘制的过于高细或矮粗。
散点图,scatterplot,adv:展示两个变量的相关性最佳实践,简化了数据且没有丢失数据.
时间序列图,特殊的散点图,横轴为时间,纵轴为变量。数据简化的同时,保留了数据;但图的形状可能产生误导。
地图,具有地域性模式,也可能产生误导
如何优秀作图?
图优性,graphical excellency,在最短时间内,用最少笔墨,在最小的空间里给观众最多的思想。
图中垃圾,制图者天假的试图使图更吸引人或更有趣的特征。?有些图中垃圾可能会使读者更感兴趣。
数据密度,没平方英寸数据越多,数据密度越大,越富含信息。
某些情况下使用表而不是图,用于支持观点/组织数据。
统计汇总
将观测值汇总为一个数据,使之具有中心趋势或平均值/汇总变量之间的差别。
汇总,adv:数据高度简单化;neg:信息丢失。
平均数,对变量观察值进行计算后得到的一个数值。
中心值,average/central value,分为三种:
众数,mode,一个变量出现次数最多的值。
一个数据集有2个值经常出现,叫二众数分布。
adv:易于取得,对于分类变量是描述平均值最好方法;
neg:不经常使用,只能体现这个数据集很少的一部分。
#get the mode value of data set def mode(arr): dic = {} for item in data: if item in dic.keys(): dic[item] += 1 else: dic[item] = 1 maxNum = max(dic.values()) for keyName in dic: if dic[keyName] == maxNum: key = keyName break return keyName
中位数,median,将观测值分为同等数目的两组数,一半观测值小于它,另一半大于它。
求中位数:
#get the median value of data set def median(arr): arr.sort() num = len(arr) pos = 0 median = 0 if num%2 == 0: pos = num/2 -1 median = (arr[pos] + arr[pos + 1])/2 else: pos = (num-1)/2 +1 -1 median = arr[pos] return median
偶数个观测值取中间两个值得中点作为中位数。
中位数也称为第50个百分位数,另外还有25百分位数与75百分位数。
茎叶图中的中位数很好找,因为茎叶图已经排好序。
均值,mean,所有观察值相加除以观察值个数
#get the mean value of data set def mean(arr): num = len(arr) sum = 0 for i in arr: sum = sum + i mean = sum/num return mean
均值对极值十分敏感,当数据有极值,尽量不使用均值。
adv:对每一个观察值都加以利用。可以获得更多信息。
neg:计算麻烦,对极值敏感。
极差,range,观察值中最大值与最小值的差。
#get the range of data set def range(arr): minValue = min(arr) maxValue = max(arr) return maxValue - minValue
极差对极值十分敏感,去掉某些极端值是一种优秀策略。
四分位极差,interquartile range,去掉最大的25%数据与最小的25%数据,余下数据的极值之差。
#get the interquartile range of dataset def quatileRange(arr): arr.sort() iqR = 0 if(len(data)%2 == 0): q1Pos = (len(data) + 1) * 0.25 q3Pos = (len(data) + 1) * 0.75 q1_c = int(q1Pos) q1_d = q1Pos - q1_c q3_c = int(q3Pos) q3_d = q3Pos - q3_c q1 = arr[q1_c - 1] + (arr[q1_c + 1 - 1] - arr[q1_c - 1]) * q1_d q3 = arr[q3_c - 1] + (arr[q3_c + 1 - 1] - arr[q3_c - 1]) * q3_d iqR = q3 - q1 return iqR else: q1Pos = int((len(data)+1)*0.25) -1 q3Pos = int((len(data)+1)*0.75) -1 iqR = arr[q3Pos] - arr[q1Pos] return iqR #notice,qn_c代表整数部分,qn_d代表小数部分,计算机中数组是从0位开始,所以取值需要减1
极差/四分位极差适合用盒状图表示出来。
标准差,standard deviation,观察值与平均值的距离,一般用s表示。
求标准差,先得出方差,再开根号。求方差同理。方差是标准差的平方。
#get the standatd deviation of data set def stDev(arr): meanValue = mean(arr) sum = 0 for item in arr: sum += (item - meanValue) * (item - meanValue) s = float(sum)/(len(arr)-1 + 1) st = round(math.sqrt(s),2) return st
注意,需要import math
标准误差,standard error,多个样本均值的标准差。
均值的标准误差比观测值的标准差小。
标准误差同样可以由一列中位数或者一列标准差计算得到。
?标准误差的计算公式不统一
标准得分,standard scores,某一观测值减均值的差除以标准差,数值的绝对值越大,更反常规。
任何变量的标准得分的大部分值都在-2.00至2.00之间,如果它的标准得分超过此区间,那么这个观测值就不合寻常。
#get the standard scores of data set def standardScores(objValue,arr): meanValue = mean(arr) stanDevi = stDev(arr) stanScores = (objValue - meanValue)/stanDevi return stanScores
概率
0-1之间的一个数,它告诉我们一件事发生的经常程度。
得到概率:
1.利用等可能性事件
2.利用相对频数,基于大量实验。
3.利用主观概率subjective probability,当事件不能被重复度量
计算两个不可能同时发生的事件的概率,可以相加/计算两个事件同时发生的概率,将两个概率相乘
优势,odds,反对一个事件的优势:一个事件不发生:发生的可能性。
优势应该用整数表示,如4:9,兑换成概率为(4+9)/9
计算复杂事件的概率的方案:二项分布及Poisson分布
二项分布公式(binomial distribution):n个实验中成功的次数分布。
二项变量(binomial variable):问题中两个值中某一个值出现的次数。
二项分布通常在小样本中应用,大样本使用二项分布的正态相似(normal approximation to the binomial distribution)
#get binomial distrubution def binomialDistri(m, n, p): calLeft = math.factorial(m)/(math.factorial(n) * math.factorial(m-n)) calRight = pow(p,n) * pow((1-p),(m-n)) return calLeft * calRight;
m代表样本众数,n代表成功次数,p代表成功发生的概率,如4个小孩中生2个为女孩的概率,女孩出生率为0.49,则mnp分别为4、2、0.49
Possion分布,当一个事件出现的可能性非常小,且有很多可能值,使用柏松分布。
#get possion distribution def possionDistri(u, x): p=pow(math.e, -u) * pow(u, x)/ math.factorial(x) return p
math.e代表自然对数的底数,u代表事件发生次数的均值,x代表事件发生了几次,如每小时有人发短信的均值为3,求解每小时收到5条短信的概率,u=3,x=5
超几何分布,hypergeometric distribution,样本很少用于分析两个分类变量。
还可以计算二项分布、泊松分布的均值、标准差。
连续变量,continuous variable,任意两个值之间还有其它的值。四个理论变量有助于分析概率,分别为z,t,卡方(x2),F变量。
标准正态Z分布(钟型曲线),特征是对称性,中点两边曲线下的面积相等。
标准正态分布Standard normal distribution的均值为0,标准差为1。
z值比例的和为1。
z分布的主要作用在于找到一个特别的值及比它更极端的z值的概率。(假设检验中还会讨论)。
t-分布,t-distribution也叫学生分布,student's t。
自由度,degrees of freedom,d.f,t分布有一个族,自由度是它们的标记,样本数的大小部分决定使用哪个自由度。
t分布在其均值周围的聚集程度比正态分布差一些。
t分布的自由度越大,则越接近正态分布。自由度大于50,t分布与z分布基本相同,d.f最大值为100,此后可以用z代替t分布。
卡方分布,它是一族分布,编号同样叫自由度。
它没有负值,形状并不对称。
我们在某一自由度下计算卡方分布的概率,如果这个概率很小,那么这个值就是不寻常的,意味着样本得到的结果不寻常。(假设检验中深入)。
F分布,它是两个卡方分布的比率,分子X服从自由度K1的卡方分布,坟墓Y服从自由度K2的卡方分布。
F分布是非负的,非对称的。
自由度越小,F值越大。
在特定的自由度下,如果一个F分布的值大于这个自由度的边缘概率,那么这个值就是一个不寻常值。
使用T,卡方及F分布,应假定数据服从正态分布,因为它们都衍生于正态分布。
任何概率都建立在某种假设为真的前提下。
作出假设->收集数据->计算概率->假设检验
尾概率,tail probability,分布于概率分布的尾部。
P-值,有关总体的某些假设下,观察值或极端值出现的概率。
风险和利益间达到平衡的过程,叫做决策分析(decision analysis)。
人们常常对小概率事件作出过度反应。
估计