zoukankan      html  css  js  c++  java
  • 统计学上的知识

    1.统计学软件使用基础

        进行临床数据的医学统计学分析,可以根据分析方法进行公式计算,但手动计算工作量很大,且乙出错。这里推荐使用两款国际流行且通用的软件作为统计工具。

        SPSS 17.0,(Statistics Package for Social Science),

        SAS 9.1,(Statistical Analysis System),

        作为数据源,输入方法有多种,结合统计软件,这里推荐使用EXCEL录入方式,方便数据管理。保证SPSS和SAS可以正常导入,对EXCEL的数据录入方式需要进行规定,第一列为序号“No”,第一行为项目名称,即Item。以此格式构成的数据可正常导入软件中。

        1)SPSS

        SPSS中,选择文件->打开->数据,在打开数据对话框中,选择文件类型为“*.xls”。

     

        选择需要输入的数据源文件中,即可成功导入源数据为SPSS认可的数据矩阵。

     

        2)SAS

        SAS中,因语言版本问题,需要在硬盘根目录下创建一个英文文件夹,如“D:\DATA”,数据源文件也要为英文文件名,如“Clinical.xls”。

        软件中进行数据导入操作,选择文件->数据导入(“Import Data”)命令。选择数据源为“Standard data source”。特别要注意,数据源类型的选择。

     

        正确选择导入数据类型后,需要输入导入数据的Library(库)以及Member(成员名称)。这里输入的为“SASUSER”和“SURVEY”。

     

        这样SASUSER.SURVEY的数据源就正确导入,后续的统计学分析时,对导入数据引入可利用如下程序:

     

    PROC IMPORT OUT= SASUSER.SURVEY

                DATAFILE= "D:\DATA\CLINICAL.xls"

                DBMS=EXCEL2000 REPLACE;

         GETNAMES=YES;

    RUN; 

    2.数据的正态性检验

        统计分析的对象是统计资料,正确识别统计资料的类型是合理选用统计分析方法的首要前提。正态分布是常见的计量资料数据分布类型之一,在医学上计量资料的分析方法要求数据分布是正态或近似正态,因此需要对原始独立测定数据进行正态性检验。

        通过绘制数据的频数分布直方图来定性地判断数据分布正态性。这样的图形判断决不是严格的正态性检验,它所提供的信息只是对正态性检验的重要补充。

        软件中常用的正态性检验主要有三类方法:

        1)计算综合统计量

        如动差法、夏皮罗-威尔克Shapiro-Wilk 法(W 检验) 、达戈斯提诺D′Agostino 法(D 检验) 、Shapiro-Francia 法(W′检验) 。

        2)正态分布的拟合优度检验

        如皮尔逊χ2 检验 、对数似然比检验 、柯尔莫哥洛夫Kolmogorov-Smirov 法检验。

        3)图示法(正态概率图Normal Probability plot)

        如分位数图(Quantile Quantileplot ,简称QQ 图) 、百分位数(Percent Percent plot ,简称PP 图) 和稳定化概率图(Stablized Probability plot ,简称SP 图) 等。

     

        1)SPSS

        SPSS中进行正态性检验,可利用“Descriptive Statistics”描述性统计方法的Explore方法。

     

        在Explore方法中,首先导入想要分析的数据项,如“Vital_HR”到“Dependent List”独立列表中。这里必须选择“Normality plots with tests”正态性检验图示,才能得到正态性分析结果。

     

        正态性分析检验的结果为两个表,两个图。两个表为“Case Processing Summary”和“Tests of Normality”。两个图为“Normal Q-Q Plot of Vital_HR”和“Detrended Normal Q-Q Plot of Vital_HR。

        其中“Tests of Normality”表为正态性检验结果。表中有两种检验结果。

    Tests of Normality

     

    Kolmogorov-Smirnova

    Shapiro-Wilk

     

    Statistic

    df

    Sig.

    Statistic

    df

    Sig.

    ******

    .100

    80

    .046

    .967

    80

    .036

    a. Lilliefors Significance Correction

        2)SAS

        SAS中进行正态性检验,需要输入编程语句,如下所示:

        proc univariate normal plot ; 执行univariate 过程并作正态性检验、正态概率图等

       var x ; 分析变量x

       run ; 过程步结束

     

        3)结果分析

        SPSS 和SAS同时全出Shapiro - Wilk (w 检验) 和Kolmogorov -Smirnov(D 检验) 两个统计量。SPSS 规定:当样本含量3 ≤n ≤5000 时,结果以Shapiro - Wilk (W 检验) 为难,当样本含量n > 5000 结果以Kolmogorov - Smirnov (D检验) 为准。而SAS 规定:当样本含量n ≤2000 时,结果以Shapiro - Wilk (W 检验) 为准,当样本含量n >2000 时,结果以Kolmogorov - Smirnov (D 检验) 为准。由从表2 可知,本资料样本含量n = 110 例,由SPSS和SAS 计算出的W值确定的概率P > 0. 05 ,不能拒绝检验假设,可以为该资料服从正态分布。由此,即可通过检验结果验证数据的正态性。

    3.样本含量的估计

        样本含量的估计原则是指在研究结论具有一定可靠性(检验效能)的基础上确定最少的样本例数。估计样本含量,目的是在保证一定精确度的前提下,确定最少的观察单位数。

        在临床试验研究中,无论是实验组还是对照组都需要有一定数量的受试对象。这是因为同一种实验处理在不同的受试对象身上表现出的实验效应是存在着变异的。仅 凭一次实验观测结果或单个受试者所表现出来的实验效应说明不了什么问题。必须通过一定数量的重复观测才能把研究总体真实的客观规律性显示出来,并且可以对 抽样误差做出客观地估计。一般说来重复观测次数越多,抽样误差越小,观测结果的可信度越高。一定数量的重复还可起到部分抵消混杂因素影响的作用,增强组间 的可比性。但重复观测次数越多(即样本含量越大)试验所要消耗的人力、物力、财力和时间越多,可能会使试验研究成为不可能。而且,样本含量过大还会增加控 制试验观测条件的难度,有可能引入非随机误差,给观测结果带来偏性(bias)。所以在实验设计中落实重复原则的一个重要问题就是如何科学合理确定样本含 量。由于在各对比组例数相等时进行统计推断效能最高,因此多数情况下都是按各组样本含量相等来估计。但在个别情况下,也可能要求各组样本含量按一定比例来 估计。

        确定样本含量的前提条件:

        1)确定检验水平α
        确定犯第一类错误的概率,即显著性水平,一般取α=0.05,同时还应明确是单侧检验或是双侧检验,这里α越小,估计样本含量越大。

        2)确定检验效能(1—β)
        β为犯第二类错误的概率,要求检验效能越大,所需样本含量也越大,一般取β=0.10,检验效能1—β=1-0.10=0.90,在临床研究设计时,检验效能不宜低于0.75,,若低于0.75,有可能研究结果不能反映出总体的真实差异,可能出现非真实的阴性结果。

        医学统计学软件中,对样本含量的估计大多采用PASS软件,当前的版本为:NCSS 2004 And PASS 2005 v2.0.0.462(下载地址http://www.9iv.com/down/soft/1184.htm)。该软件集成了NCSS和PASS两个组件。

        基于相关性系数分析的样本含量估计方法,如图选择单组相关性分析菜单。

     

        在PASS的相关性分析命令窗内的“DATA”标签页进行配置参数:

        Find(Solve For):这里可以选择检验水平α,把握度β,相关系数R以及样品含量N等输出结果;

        R0(Baseline Correlation):

        R1(Alternative Correlation):样本预检验相关性

        Alpha(Significance Level):检验水平α

        Beta(1-Power):检验效能,为1—β

     

       

        选定参数后,点击运行(计算)按钮,计算结果将在“NCSS OUTPUT”窗口中显示,如下(这里选择R1=0.5):

    One Correlation Power Analysis

    Page/Date/Time         2009-2-27 12:30:35

     

    Numeric Results when Ha: R0<>R1

    Power                   Alpha           Beta                    R0                    R1

    0.81394         29       0.05000       0.18606             0.00000             0.50000

     

    References

    Graybill, Franklin. 1961. An Introduction to Linear Statistical Models. McGraw-Hill. New York, New York.

    Guenther, William C. 1977. 'Desk Calculation of Probabilities for the Distribution of the Sample Correlation

    Coefficient', The American Statistician, Volume 31, Number 1, pages 45-48.

    Zar, Jerrold H. 1984. Biostatistical Analysis. Second Edition. Prentice-Hall. Englewood Cliffs, New Jersey.

    Report Definitions

    Power is the probability of rejecting a false null hypothesis. It should be close to one.

    N is the size of the sample drawn from the population. To conserve resources, it should be small.

    Alpha is the probability of rejecting a true null hypothesis. It should be small.

    Beta is the probability of accepting a false null hypothesis. It should be small.

    R0 is the value of the population correlation under the null hypothesis.

    R1 is the value of the population correlation under the alternative hypothesis.

    Summary Statements

    A sample size of 29 achieves 81% power to detect a difference of -0.50000 between the null

    hypothesis correlation of 0.00000 and the alternative hypothesis correlation of 0.50000 using a

    two-sided hypothesis test with a significance level of 0.05000.

    Chart Section

    4.相关性分析

        相关性分析是研究变量间密切程度的一种常用统计方法。包括:

        1)线性相关分析:

        研究两个变量间线性关系的程度。用相关系数r来描述。

        2)偏相关分析:

        它描述的是当控制了一个或几个另外的变量的影响条件下两个变量间的相关性,如控制年龄和工作经验的影响,估计工资收入与受教育水平之间的相关关系。

        3)相似性测度:

        两个或若干个变量、两个或两组观测量之间的关系有时也可以用相似性或不相似性来描述。相似性测度用大值表示很相似,而不相似性用距离或不相似性来描述,大值表示相差甚远。

        其中,相关系数是研究两个变量间线性关系的程度,描述这种线性关系程度和方向的统计量,用r表示。

        如果变量Y与X间是函数关系,则r=1或r=-1;如果变量Y与X间是统计关系,则-1<r<1, 如果x,y变化的方向一致,如身高与体重的关系,则称为正相关,r>0,如果x,y变化的方向相反,如吸烟与肺功能的关系,则称为负相关,r<0;而r=0表示无线性相关,一般地,

        |r|>0.95     存在显著性相关;

        |r|≥0.8      高度相关;

        0.5≤ |r|<0.8  中度相关;

        0.3≤ |r|<0.5  低度相关;

        |r|<0.3      关系极弱,认为不相关。

     

        1)SPSS

        如图SPSS提供的相关性分析方法有:

        Bivariate--相关分析:

        计算指定的两个变量间的相关关系,可选择Pearson相关、Spearman和Kendall 相关;同时对相关系数进行检验,检验的零假设为:相关系数为0(不相关)。给出相关系数为0的概率

        Partial  -- 偏相关分析:

        计算两个变量间在控制了其他变量的影响下的相关关系,对相关系数也进行检验,检验的零假设为:相关系数为0

        Distance-- 相似性测度:

        对变量或观测量进行相似性或不相似性测度

     

        SPSS提供三种相关性分析,为pearson(皮尔逊) spearman(斯伯曼)和kendall(肯德尔)相关分析。

     

     

     

    Correlations

     

     

    Var1

    Var2

    Var1

    Pearson Correlation

    1

    .885**

    Sig. (2-tailed)

     

    .000

    N

    80

    80

    Var2

    Pearson Correlation

    .885**

    1

    Sig. (2-tailed)

    .000

     

    N

    80

    80

    **. Correlation is significant at the 0.01 level (2-tailed).

     

    2)SAS(程序)

    proc corr data= SASUSER.SURVEY;

      var Var1 Var2;

    run;

     

  • 相关阅读:
    exp 和imp 与expdp / impdp 区别
    nginx优化
    nginx root alias proxypass
    mysql3
    logrotate 用法
    SQL执行顺序
    http与RPC的关系
    docker
    windows 时间同步
    Java生成指定长度的随机字符串
  • 原文地址:https://www.cnblogs.com/zhangjun1130/p/1639685.html
Copyright © 2011-2022 走看看