数据类型与数据分布

zoukankan html css js c++ java

数据类型与数据分布

1.离解数据与离散分布

  离解数据通常是那些只能用整数表现的数据。比如某省的人口数，宇宙中单位体积内的星球个数等。

1.1统计中常见的描述离散型数据的离散分布：

1.退化分布：一个随机变量X以概率1取某一常数，即 P{X=a}=1，则称X服从a处的退化分布。确定分布。

2.两点分布：一个随机变量只有两个可能取值, 设其分布为 P{X=x1}=p, P{X=x2}=1-p, 0<p<1，则称X服从x1, x2处参数为p的两点分布。

                    当如果X只取0, 1两个值, 其概率分布为P{X=1}=p, P{X=0}=1-p, 0<p<1。则称X服从参数为p的0-1分布, 也称X是参数为p的伯努利随机变量. 此时EX=p, DX=p(1-p）。【抛一枚硬币】

3.n个点上的均匀分布：

                      设随机变量X取n个没不同的值，且其概率分布为 P{X=x_i}=1/n,(i=1,2,3,...,n),则称X服从n个点｛x1,x2,...,xn}上的均匀分布。【抛一枚骰子】

                    古典概型中经常出现此类分布情形。

4.二项分布：n重伯努利试验，成功k次的概率分布。

                    【判断是否为伯努利试验的关键是每次试验事件A的概率不变，并且每次试验的结果同其他各次试验的结果无关，重复是指试验为一系列的试验，并非一次试验，而是多次，但要注意重复事件发生的概率相互之间没有影响。】

5.几何分布：n次伯努利实验中，A为发生事件，设X为直到发生事件A为止所进行的实验次数。【在袋子中直到摸到一个红球的所摸的次数】

6.超几何分布：一个袋子中共装有N个球, 其中N1个白球, N2个黑球, 从中不放回地抽取n个球, X表示取到白球的数目, 那么X的分布为

7.泊松分布：

电话交换台在一给定时间内收到用户的呼叫次数，售票口到达的顾客人数，保险公司在一给定时期内被索赔的次数，某一服务设施在一定时间内到达的人数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数,一块产品上的缺陷数,显微镜下单位分区内的细菌分布数等均可近似地用泊松分布来描述。

事件以固定的概率λ【平均瞬时速率λ(或称密度)】随机且独立地出现时,那么这个事件在单位时间（面积或体积）内出现的次数或个数就近似地服从泊松分布。

泊松分布是二项分布的条件放宽，对中n趋近无穷时的推导出来的！对泊松分布的理解参见阮一峰对泊松分布的理解。

1.2离散分布之间的联系



      二项分布，几何分布和帕斯卡分布（负二项分布）都是基于独立的伯努利试验。

二项分布：描述在给定的n次试验中成功x次的概率

几何分布：描述第一次成功发生在第x次的概率

帕斯卡分布：负二项分布的正整数形式，描述已知一个事件在伯努利试验中每次的出现概率是p，在一连串伯努利试验中，一件事件刚好在第r + k次试验出现第r次的概率，因此几何分布是n=1的帕斯卡分布特例

      超几何分布：描述的是总体有限的无放回抽样问题。总体有N个个体，其中具有某一特点的个体有M个，如果从中抽取n个，其中带有这一特点的样本为x个的概率。超几何分布中我们常常希望推断的是N（已知M）或者M（已知N）。例如要知道河里有多少鱼，可以打捞M条做标记，过段时间认为这些做了标记的鱼都均匀分散在水中以后，再打捞n条，其中具有带有标记的鱼为m条，推断鱼的总数N。

  超几何分布 V.S. 二项分布：       两者都是抽样，只不过超几何分布是无放回抽样，二项分布是有放回抽样。当超几何分布中N很大，而n很小时，无放回抽样可以近似得看成有放回抽样，也就是超几何分布可以用二项分布近似。

  泊松分布 V.S. 二项分布：

泊松分布可以用来近似二项分布，当二项分布中，n很大，而p很小，np又是一个大小合适的数时，可以用Poisson（np）来近似二项分布。binomial(x;n,p)=poisson(x,np)

  例如，一个城市有10万人，在一个小时之内，每个人来到某个车站的概率均为0.001，那么在一个小时之内，这个车站会有多少人到来呢？

  这是一个二项分布，n=10万，p=0.001，显然期望等于np=100人。如果让求在一个小时之内有150人到来的概率，当然可以用二项分布，但里面的组合数不好计算，这时就可以用泊松分布近似：认为在一个小时内，这个车站到来的人数服从lambda=np=100的泊松分布。也就是说泊松分布常常用来描述总体很大，对于总体中每个个体来说事件发生的概率很小（但总体中发生事件的概率=np，就不是一个小数字），在一段时间内总体中发生事件的次数为x的概率。显然发生的次数与时间的长度以及lambda=np有关。

  若x服从Poisson 分布，那么x应当满足泊松过程的三个条件：平稳性，独立性和普通性。（概率论基础，复旦大学，李贤平，第99页）

所谓平稳性就是在一段时间内发生的次数与计时的起点无关，只与时间的长度有关；

所谓独立性就是互不相交的时间区间内过程进行的互相独立性；

所谓普通性就是同一时间不可能有两个或两个以上的事件发生。

  显然，这三点在现实中可能是不满足的。例如一段时间内到来的呼叫次数，完全有可能出现两个呼叫同时发生的情况（占线），也有可能不平稳，例如白天的呼叫次数多于夜间。

几何分布具有无记忆性，这是由于每次试验都是独立的试验，不受之前试验结果的影响。注意到连续分布中的指数分布也具有无记忆性。

2.连续数据与连续分布

  连续数据是在一定区间内可以任意取值的数据,其数值是连续不断的,相邻两个数值可作无限分割后仍然有意义，即可取无限个数值。

统计中提到最多的就是正态分布。它很重要！

2.1统计中常见的连续型分布：

1.均匀分布

2. 正态分布-标准正态分布

3. χ²(卡方)分布

　　4.F分布

　　5.T分布

　　6.指数分布——注意到与幂律分布的区别

　　7.γ(伽玛)分布

　　8.weibull分布

　　9.β(贝塔)分布

2.2连续分布之间的联系

正态分布是统计学中分布的核心。根据大数定律和中心极限定理，二项分布、泊松分布都能在n趋近无穷时，趋近于正态分布。

连续型分布中，χ²(卡方)分布、T分布、F分布都是由正态分布（标准正态分布）推导出来的。

指数分布和幂律分布图形很像，http://blog.sina.com.cn/s/blog_8f48f45301015ofs.html  指出幂律分布的下降速度比指数分布快的现象，幂律下降时两端更高，中间更低，在前半段变化比指数更快。

查看全文

相关阅读:
Nginx.conf 配置文件详细说明
 CentOs中iptables配置允许mysql远程访问
 CentOS 6.4下编译安装MySQL 5.6.14
CentOS6.4下Mysql数据库的安装与配置
 让nginx支持.htaccess文件实现伪静态的方法！
MySQL导入.sql文件及常用命令
 PHP里10个鲜为人知但却非常有用的函数
 Nginx配置文件详细说明
 linux 开机启动nginx
Redhat系列使用ISO或者光盘制作yum本地安装源

原文地址：https://www.cnblogs.com/ysdx2013/p/4769934.html

最新文章
Apache配置HTTPS功能
 rabbitmq因为主机名更改导致连接不上
 python小打小闹之简陋版BBS
DevOps
Shell
Tools
Tools
DevOps
DevOps
Tools