前言
概率与统计中的常见考查角度
考查概率,
涉及古典概型或几何概型,或条件概率
分析:古典概型,点(P(m,n))共有$(2,1),(2,2),(2,3),(3,1),(3,2),(3,3)$6种情况,
只有((2,1),(2,2))这2个点在圆(x^2+y^2=9)的内部,所求概率为(cfrac{2}{6}=cfrac{1}{3})。
则(BM<1)的概率是((hspace{1cm}))。
分析:本题是角度型几何概型,
(P=cfrac{30^{circ}}{75^{circ}}=cfrac{2}{5})。
分析:本题目为条件概率[理科题目],设“种子发芽”为事件(A),“种子成长为幼苗”为事件(AB)(发芽,又成活为幼苗)
出芽后的幼苗成活率为(P(B|A)=0.8),(P(A)=0.9),
根据条件概率公式(P(AB)=P(B|A)cdot P(A)=0.8×0.9=0.72),
即这粒种子能成长为幼苗的概率为(0.72).
利用互斥事件或者对立事件的概率考查
(1)求顾客抽奖一次能获奖的概率。
【法1】(相互独立事件+互斥事件):记“抽奖一次能获一等奖”为事件(A),“抽奖一次能获二等奖”为事件(B),
“顾客抽奖一次能获奖”为事件(C),则事件(A、B)是互斥事件,且(C=A+B),两次抽奖是相互独立事件,
则(P(A)=cfrac{C_4^1}{C_{10}^1}cdot cfrac{C_5^1}{C_{10}^1}=cfrac{20}{100}),
(P(B)=cfrac{C_4^1}{C_{10}^1}cdot cfrac{C_5^1}{C_{10}^1}+cfrac{C_6^1}{C_{10}^1}cdot cfrac{C_5^1}{C_{10}^1}=cfrac{50}{100})
故(P(C)=P(A+B)=cfrac{70}{100}=cfrac{7}{10})。
【法2】(对立事件+相互独立事件):设“没有获奖”为事件(D),
则(P(C)=1-P(D)=1-cfrac{C_6^1}{C_{10}^1}cdot cfrac{C_5^1}{C_{10}^1}=cfrac{7}{10})。
特征数据
考查统计案例,频率分布直方图中的特征数据,如平均数、中位数、众数等
解释:以右图题目为例,
求众数:“旧养殖法”的众数为(47.5);“新养殖法”的众数为(52.5);
求中位数:“旧养殖法”的中位数先判断其大概位置,由于(25-50)之间的面积和为(0.62),25-45之间的面积和为(0.42),
故中位数一定位于(45-50)之间,设中位数为(x),则(0.42+(x-45) imes0.04=0.50),求得(x=47),即中位数为(47)。
求平均数:比如“旧养殖法”的平均数的计算
(ar{x}=27.5 imes5 imes0.012+32.5 imes5 imes0.014)
(+37.5 imes5 imes0.024+42.5 imes5 imes0.034)
(+47.5 imes5 imes0.040+52.5 imes5 imes0.032)
(+57.5 imes5 imes0.020+62.5 imes5 imes0.012+67.5 imes5 imes0.012)
(=47.1;)
“新养殖法”的平均数的计算
(ar{y}=37.5 imes5 imes0.004+42.5 imes5 imes0.020)
(+47.5 imes5 imes0.044+52.5 imes5 imes0.068)
(+57.5 imes5 imes0.046+62.5 imes5 imes0.010+67.5 imes5 imes0.008)
(=52.35;)
求方差:比如“新养殖法”的方差计算
(S^2=(37.5-52.35)^2 imes 0.004 imes 5+(42.5-52.35)^2 imes 0.020 imes 5+(47.5-52.35)^2 imes 0.044 imes 5)
(+(52.5-52.35)^2 imes 0.068 imes 5+(57.5-52.35)^2 imes 0.046 imes 5)
(+(62.5-52.35)^2 imes 0.010 imes 5+(67.5-52.35)^2 imes 0.008 imes 5)
(=?)
感悟反思:
1、深入理解频率分布直方图,掌握众数、中位数、平均数、方差的算法;
2、为什么平均数要这样计算?比如给定数据(1,2,3,4,5)的平均数的算法是(ar{x}=cfrac{1+2+3+4+5}{5}=3),那么给定数据(2,2,4,4,4)的平均数的算法是(ar{x}=cfrac{2+2+4+4+4}{5}=cfrac{2 imes 2+4 imes 3}{5})(=2 imes cfrac{2}{5}+4 imes cfrac{3}{5}),表达式中的(cfrac{2}{5})和(cfrac{3}{5})的含义就是(cfrac{频数}{样本容量}=频率)。
考察用样本数据特征估计总体的数据特征
(1).从总体的(400)名学生中随机抽取一人,估计其分数小于(70)的概率;
分析:解答本题目应该注意到两点:①用频率分布直方图计算出来的其实是频率,我们只是用此频率粗略的估计概率;②计算所得的概率是直方图中的(100)个样本数据的概率,还需要用此样本数据的概率粗略的估计总体数据(400)的概率;据此计算说明如下:
由频率分布直方图可知,样本中分数小于(70)的频率:(1-(0.02+0.04) imes 10=0.4),
所以从总体的(400)名学生中随机抽取一人,其分数小于(70)分的概率为(0.4);
(2).已知样本中分数小于(40)的学生的学生有(5)人,试估计总体中分数在([40,50))内的人数;
分析:学生易错的问题,忘记用样本数据来估计总体数据,其本质是没有理解数学的学习本质,是为了服务生产和生活;
由题意可知,样本中分数不小于(50)的频率为((0.01+0.02+0.04+0.02) imes 10=90),
则分数在([40,50))内的人数为(100-100 imes 0.9-5=5),即样本中分数在([40,50))内的频率[或概率]为(cfrac{5}{100}=0.05),
则总体中分数在([40,50))内的频率[或概率]为(cfrac{5}{100}=0.05),分数在([40,50))内的人数为(400 imes 0.05=20);
(3).学生易错的问题,由题可知,样本中分数不小于(70)的人数为((0.02+0.04) imes 10 imes 100=60),
所以样本中分数不小于(70)分的男生人数为(60 imes cfrac{1}{2}=30);
则样本中男生人数为(30 imes 2=60),故样本中女生人数为(100-60=40),
所以样本中男生和女生人数的比例为(60:40=3:2),由分层抽样原理可知,
估计总体中的男生和女生人数的比例为(3:2).
统计部分
考查统计案例,线性回归方程的相关问题
月份(x) | 2011 | 2012 | 2013 | 2014 | 2015 |
---|---|---|---|---|---|
储蓄存款(y)(千亿元) | 5 | 6 | 7 | 8 | 10 |
为便于计算,将上表做一处理,令(t=x-2010),(z=y-5),得到下表2:
时间代号(t) | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|
(z) | 0 | 1 | 2 | 3 | 5 |
附可能用到的公式:线性回归直线为(widehat{y}=widehat{b}x+widehat{a}),
(widehat{b}=cfrac{sumlimits_{i=1}^n{(x_i-ar{x})(y_i-ar{y})}}{sumlimits_{i=1}^n{(x_i-ar{x})^2}}=cfrac{sumlimits_{i=1}^n{x_iy_i-ncdotar{x}cdotar{y}}}{sumlimits_{i=1}^n{x_i^2-ncdotar{x}^2}}),
(widehat{a}=ar{y}-widehat{b}cdotar{x}).
(1)求(z)关于(t)的线性回归方程。
分析:需要先注意(z ightarrow y;;),(t ightarrow x;;),然后将所给的公式翻译为关于(z)和(t)的公式,这涉及到数学素养,公式的正向迁移。
由表格可知,(ar{t}=3),(ar{z}=2.2), (sumlimits_{i=1}^5{t_iz_i}=45), (sumlimits_{i=1}^5{t_i^2}=55),
故(widehat{b}=cfrac{sumlimits_{i=1}^n{t_iz_i-ncdotar{t}cdotar{z}}}{sumlimits_{i=1}^n{t_i^2-ncdotar{t}^2}}),
(=cfrac{45-5 imes 3 imes 2.2}{55-5 imes 9}=1.2),
(widehat{a}=ar{z}-widehat{b}cdotar{t}=2.2-3 imes 1.2=-1.4)。
故(hat{z}=1.2t-1.4)。
(2)通过(1)中的方程,求出(y)关于(x)的线性回归方程。
分析:将(t=x-2010),(z=y-5)代入(hat{z}=1.2t-1.4),
得到(y-5=1.2 imes (x-2010)-1.4),
即(hat{y}=1.2x-2408.4)。
(3)用所求的线性回归方程预测,到(2020)年底,该地的储蓄存款余额可达到多少?
分析:当(x=2020)时,代入(hat{y}=1.2x-2408.4),
得到(hat{y}=1.2 imes 2020-2408.4=15.6(千亿元))。
相关链接:数据预处理的不同思路,数据预处理
统计案例
独立性检验的相关问题
次数 | <40 | 40~49 | 50~59 | 60~69 | $ge $70 |
---|---|---|---|---|---|
男 | (2) | (3) | (2) | (7) | (6) |
女 | (1) | (3) | (8) | (6) | (2) |
(1)根据题意完成下面的(2 imes 2)列联表,并据此判断能否有90%的把握认为“是否获奖”与“性别”有关?
有奖 | 无奖 | 总计 | |
---|---|---|---|
男 | (13) | (7) | (20) |
女 | (8) | (12) | (20) |
总计 | (21) | (19) | (40) |
(chi^2=cfrac{n(ad-bc)^2}{(a+b)(c+d)(a+c)(b+d)}=cfrac{40(13 imes12-7 imes 8)^2}{20 imes20 imes21 imes19}approx 2.5<2.706),
所以没有90%的把握认为“是否获奖”与“性别”有关。
(2)在这40名顾客中,从支付次数达到70的人中随机抽取3人,设抽取的女性有(X)人,求(X)的分布列及数学期望(E(X))。
附:参考公式(chi^2=cfrac{n(ad-bc)^2}{(a+b)(c+d)(a+c)(b+d)}),
参考数据:
解析:支付次数达到70的顾客共有8人,其中6名男性,2名女性,从中随机抽取3人,抽取的女性人数服从超几何分布,(X)的所有可能取值为(0,1,2)
且(P(X=0)=cfrac{C_6^3}{C_8^3}=cfrac{20}{56}),(P(X=1)=cfrac{C_2^1C_6^2}{C_8^3}=cfrac{30}{56}),
(P(X=2)=cfrac{C_2^2C_6^1}{C_8^3}=cfrac{6}{56}),
所以分布列如下,略。
数学期望为(E(X)=0 imes cfrac{20}{56}+1 imes cfrac{30}{56}+2 imes cfrac{6}{56}=cfrac{3}{4})。
离散型随机变量
离散型随机变量的概率,离散型随机变量的分布列、期望、方差,及性质
(1)若市民的满意度评分相互独立,以满意度样本估计全市市民满意度。现从全市市民中随机抽取了4人,估计这4人中至少有2人非常满意的概率;
(2)在等级为不满意市民中,老年人占比(cfrac{1}{3}),现从该等级市民中按年龄分层抽取了15人了解不满意的原因,并从中选取3人担任整改督导员,记(X)为老年督导员的人数,求(X)的分布列和数学期望(E(X)).
(3)相关部门对西安地铁运营状况进行评估,评估的硬指标是:市民对西安地铁运营状况的满意指数不低于0.8,否则需要整改,根据你所学的统计知识,判断地铁运营状况能否通过评估,并说明理由。(说明:满意指数=(cfrac{满意程度的平均分}{100}))
【分析】:(1)首先由频率分布直方图计算得到(a=0.025),市民非常满意的概率为(0.025 imes 10=0.25=cfrac{1}{4}),
注解:由题目可知市民的满意度评分相互独立,随机抽取4人做调查,到此我们就可以理解相当于做了4次独立重复试验,
每次试验满意概率为(cfrac{1}{4}),不满意概率为(cfrac{3}{4}),这样就只能考虑二项分布而不是超几何分布了。
令满意人数为(X),则(Xsim B(4,cfrac{1}{4})),且(P(X=k)=C_4^kcdot (cfrac{1}{4})^kcdot (cfrac{3}{4})^{4-k}),(k=0,1,2,3,4)
故所求的概率即(P=P(X=2)+P(X=3)+P(X=4)=cfrac{67}{256}),
或(P=1-P(X=0)-P(X=1)=1-C_4^0cdot (cfrac{1}{4})^0cdot (cfrac{3}{4})^{4}-C_4^1cdot (cfrac{1}{4})^1cdot (cfrac{3}{4})^{3}=cfrac{67}{256}).
(2)抽取的15中,老年人占(15 imes cfrac{1}{3}=5),其他人占10人,从中抽取3人担任督导员,是无放回抽取,故容易理解是超几何分布。
且 (Xsim Hleft(15,5,3 ight)),(P(X=k)=cfrac{C_3^kC_{10}^{3-k}}{C_{15}^3},k=0,1,2,3);
故(P(X=0)=cfrac{C_3^0C_{10}^{3}}{C_{15}^3}=cfrac{24}{91}),(P(X=1)=cfrac{C_3^1C_{10}^{2}}{C_{15}^3}=cfrac{45}{91}),
(P(X=2)=cfrac{C_3^2C_{10}^{1}}{C_{15}^3}=cfrac{20}{91}),(P(X=3)=cfrac{C_3^3C_{10}^{0}}{C_{15}^3}=cfrac{2}{91}),
分布列从略。
(EX=0 imes cfrac{24}{91}+1 imescfrac{45}{91}+2 imescfrac{20}{91}+3 imescfrac{2}{91}=1)
(3)由频率分布直方图求平均数,得到,
((45 imes 0.002+55 imes 0.004+65 imes 0.014+75 imes 0.02+85 imes 0.035+95 imes 0.025) imes 10=80.7)
即市民满意度的平均分为(80.7),满意度指数为(cfrac{80.7}{100}=0.807>0.8);
即地铁运营状况能够通过验收。
(1)求顾客抽奖一次能获奖的概率。
【法1】(相互独立事件+互斥事件):记“抽奖一次能获一等奖”为事件(A),“抽奖一次能获二等奖”为事件(B),
“顾客抽奖一次能获奖”为事件(C),则事件(A、B)是互斥事件,且(C=A+B),两次抽奖是相互独立事件,
则(P(A)=cfrac{C_4^1}{C_{10}^1}cdot cfrac{C_5^1}{C_{10}^1}=cfrac{20}{100}),
(P(B)=cfrac{C_4^1}{C_{10}^1}cdot cfrac{C_5^1}{C_{10}^1}+cfrac{C_6^1}{C_{10}^1}cdot cfrac{C_5^1}{C_{10}^1}=cfrac{50}{100})
故(P(C)=P(A+B)=cfrac{70}{100}=cfrac{7}{10})。
【法2】(对立事件+相互独立事件):设“没有获奖”为事件(D),
则(P(C)=1-P(D)=1-cfrac{C_6^1}{C_{10}^1}cdot cfrac{C_5^1}{C_{10}^1}=cfrac{7}{10})。
(2)若某顾客有3次抽奖机会,记该顾客在3次抽奖中获得一等奖的次数为(X),求(X)的分布列、数学期望和方差。
由于顾客在每次抽奖过程中,中一等奖的概率都为(cfrac{C_4^1}{C_{10}^1}cdot cfrac{C_5^1}{C_{10}^1}=cfrac{1}{5}),
那么此人抽奖3次,相当于做了3次独立重复实验,故(Xsim B(3,cfrac{1}{5})),(X=0,1,2,3);
即(P(X=k)=C_3^kcdot (cfrac{1}{5})^k(1-cfrac{1}{5})^{3-k}),(k=0,1,2,3);
则(P(X=0)=C_3^0cdot (cfrac{1}{5})^0(1-cfrac{1}{5})^{3-0}=cfrac{64}{125}),
(P(X=1)=C_3^1cdot (cfrac{1}{5})^1(1-cfrac{1}{5})^{3-1}=cfrac{48}{125}),
(P(X=2)=C_3^2cdot (cfrac{1}{5})^2(1-cfrac{1}{5})^{3-2}=cfrac{12}{125}),
(P(X=3)=C_3^3cdot (cfrac{1}{5})^3(1-cfrac{1}{5})^{3-3}=cfrac{1}{125}),
分布列略,数学期望为(EX=3 imes cfrac{1}{5}=cfrac{3}{5})
方差为(DX=3 imes cfrac{1}{5} imes (1-cfrac{1}{5})=cfrac{12}{25})
解后反思:
1、求复杂事件的概率,需要将复杂事件分化为几个简单的事件,且必须弄清楚个事件之间的关系,这会决定后续的计算是用加法还是乘法。
2、(n)次独立重复实验中,离散型随机变量(Xsim B(n,p)),则(EX=np),(DX=np(1-p))。
连续型随机变量
考查连续型随机变量的概率,简单的正态分布知识
高阶综合
(ar{x}) | (ar{y}) | (ar{w}) | (sumlimits_{i=1}^{8}{(x_i-ar{x})^2}) | (sumlimits_{i=1}^{8}{(w_i-ar{w})^2}) | (sumlimits_{i=1}^{8}{(x_i-ar{x})(y_i-ar{y})}) | (sumlimits_{i=1}^{8}{(w_i-ar{w})(y_i-ar{y})}) |
---|---|---|---|---|---|---|
(46.6) | (563) | (6.8) | (289.8) | (1.6) | (1469) | (108.8) |
表中(w_i=sqrt{x_i}),(ar{w}=cfrac{1}{8}sumlimits_{i=1}^{8}{w_i}),
附:对于一组数据((u_1,v_1)),((u_2,v_2)),(cdots),((u_n,v_n)),其回归直线(v=alpha+eta u)的斜率和截距的最小二乘估计分别为(hat{eta}=cfrac{sumlimits_{i=1}^{8}{(u_i-ar{u})(v_i-ar{v})}}{sumlimits_{i=1}^{n}{(u_i-ar{u})^2}}),(hat{alpha}=ar{v}-hat{eta}ar{u}),
(Ⅰ)根据散点图判断,(y=a+bx)与(y=c+dsqrt{x})哪一个适宜作为年销售量(y)关于年宣传费(x)的回归方程类型?(给出判断即可,不必说明理由)
分析:由散点图可以分析,(y=c+dsqrt{x})更适宜作为年销售量(y)关于年宣传费(x)的回归方程类型,图中的变量呈现曲线回归。
(Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立(y)关于(x)的回归方程;
分析:令(w=sqrt{x}),先建立(y)关于(w)的线性回归方程,
由于(hat{d}=cfrac{108.8}{1.6}=68),
则(hat{c}=ar{y}-hat{d}ar{w}=563-68 imes 6.8=100.6),
所以(y)关于(w)的线性回归方程为(hat{y}=100.6+68w),
即(y)关于(x)的线性回归方程为(hat{y}=100.6+68sqrt{x}).
(Ⅲ)已知这种产品的年利润(z)与(x)、(y)的关系为(z=0.2y-x),根据(Ⅱ)的结果回答下列问题:
(i)年宣传费(x=49)时,年销售量及年利润的预报值是多少?
分析:由(Ⅱ)知,年宣传费(x=49)时,年销售量的预报值(hat{y}=100.6+68sqrt{49}=576.6),
年利润(z)的预报值(hat{z}=0.2 imes 576.6-49=66.32)。
(ii)年宣传费(x)为何值时,年利润的预报值最大?
分析:由(Ⅱ)知,年利润(z)的预报值(hat{z}=0.2 imes (100.6+68sqrt{x})-x)
(=-x+13.6sqrt{x}+20.12=-[(sqrt{x})^2-13.6sqrt{x}]+20.12)
当(sqrt{x}=cfrac{13.6}{2}=6.8)时,即当(x=46.24)时年利润的预报值最大。
(1)假设生产状态正常,记(X)表示一天内抽取的(16)个零件中其尺寸在((mu-3sigma,mu+3sigma))之外的零件数,求(P(X≥1))及(X)的数学期望;
分析:由题可知,尺寸落在((mu-3sigma,mu+3sigma))之内的概率为(0.9974),
则尺寸落在((mu-3sigma,mu+3sigma))之外的概率为(1-0.9974=0.0026),
因为(P(X=0)=C_{16}^0 imes (1-0.9974)^0 imes 0.9974^{16}=0.9592),
所以(P(Xge 1)=1-P(X=0)=0.0408)。
又由于(Xsim B(16,0.0026)),故(E(X)=16 imes 0.0026=0.0416)。
(2)一天内抽检零件中,如果出现了尺寸在((mu-3sigma,mu+3sigma))之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(ⅰ)试说明上述监控生产过程方法的合理性;
分析:如果生产状态正常,一个零件尺寸在((mu-3sigma,mu+3sigma))之外的概率只有(0.0026),一天内抽取的16个零件中,出现尺寸在((mu-3sigma,mu+3sigma))之
外的零件的概率只有(0.0408),发生的概率很小。因此一旦发生这种状况,就有理由认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查,可见上述监控生产过程的方法是合理的.
(ⅱ)下面是检验员在一天内抽取的16个零件的尺寸:
抽取次序 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
---|---|---|---|---|---|---|---|---|
零件尺寸 | 09.95 | 10.12 | 09.96 | 09.96 | 10.01 | 09.92 | 09.98 | 10.04 |
抽取次序 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 |
---|---|---|---|---|---|---|---|---|
零件尺寸 | 10.26 | 09.91 | 10.13 | 10.02 | 09.22 | 10.04 | 10.05 | 09.95 |
经计算得(ar{x}=cfrac{1}{16}cdotsumlimits_{i=1}^{16}{x_i}=9.97) ,(s=sqrt{cfrac{1}{16}cdotsumlimits_{i=1}^{16}{(x_i-ar{x})^2}}=sqrt{cfrac{1}{16}(sumlimits_{i=1}^{16}{x_i^2-16ar{x}^2})}approx 0.212),
(sqrt{sumlimits_{i=1}^{16}{(i-8.5)^2}}approx 18.439),(sumlimits_{i=1}^{16}{(x_i-ar{x})(i-8.5)}=-2.78),其中(x_i)为抽取的第(i)个零件的尺寸,(i=1,2,cdots,16) .
用样本平均数(ar{x})作为(mu)的估计值(hat{mu}),用样本标准差(s)作为(sigma)的估计值(hat{sigma}),用估计值判断是否需对当天的生产过程进行检查?剔除((mu-3sigma,mu+3sigma))之外的数据,用剩下的数据估计(mu)和(sigma)(精确到0.01).
附:若随机变量(Z)服从正态分布(N(mu,sigma^2)),则(P(mu-3sigma<Z<mu+3sigma)=0.9974),(0.9974^{16}≈0.9592),(sqrt{0.008}≈0.09).
分析:由(ar{x}=9.97),(sapprox 0.212),得到(mu)的估计值(hat{mu}=9.97),(sigma)的估计值(hat{sigma}= 0.212),
由样本数据可以看出,有一个零件的尺寸在((mu-3sigma,mu+3sigma))之外,因此需对当天的生产过程进行检查。
剔除((mu-3sigma,mu+3sigma))之外的数据(9.22),剩下数据的平均值为(cfrac{16 imes 9.97-9.22}{15}=10.02),
因此(mu)的估计值(hat{mu}=10.02)。
由于(sumlimits_{i=1}^{16}{x_i^2}=16 imes 0.212^2+16 imes 9.97^2),剔除数据(9.22)后剩下的数据,
故(sumlimits_{i=1}^{15}{x_i^2}=16 imes 0.212^2+16 imes 9.97^2-9.22^2=1506.125),
则(sumlimits_{i=1}^{15}{x_i^2}-15 imesar{x}_{15}^2=1506.125-15 imes10.02^2=0.119104);
故剩余数据的样本方程为(cfrac{1}{15}(sumlimits_{i=1}^{15}{x_i^2}-15 imesar{x}_{15}^2)approx 0.008),
故所求的(sigma)的估计值为(hat{sigma}=sqrt{0.008}approx 0.09),
即剩下15个数据的平均数的估计值(hat{mu}=10.02),标准差的估计值(hat{sigma}=0.09)。