统计分析方法的一点总结

1.1 两组独立样本比较资料符合正态分布,且两组方差齐性,直接采用t检验资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验;(2)采用非参数检验,如Wilcoxon检验(即,秩和检验)资料方差不齐,(1)采用Satterthwate 的t’检验;(校正t检验,前提资料要服从正态分布)(2)采用非参数检验,如Wilcoxon检验1.2 两组配对样本的比较两组差值服从正态分布,采用配对t检验两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验1.3 多组完全随机样本比较资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析(即,单因素方差分析)如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal-Wallis法如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用成组的Wilcoxon检验1.4 多组随机区组样本比较资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。
如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用符号配对的Wilcoxon检验需要注意的问题:(1) 一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t检验或方差分析因为统计学上有中心极限定理,假定大样本是服从正态分布的一般样本量N>50时,可认为样本是服从正态分布的)(2) 当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等绝不能对其中的两组直接采用t检验,这样即使得出结果也未必正确**(3) 关于常用的设计方法:多组资料尽管最终分析都是采用方差分析,但不同设计会有差别。
常用的设计如完全随即设计,随机区组设计,析因设计,裂区设计,嵌套设计等2.分类资料2.1 四格表资料例数大于40,且所有理论数大于5,则用普通的Pearson 检验例数大于40,所有理论数大于1,且至少一个理论数小于5,则用校正的 检验或Fisher’s确切概率法检验例数小于40,或有理论数小于2,则用Fisher’s确切概率法检验2.2 2×C表或R×2表资料的统计分析列变量&行变量均为无序分类变量,则(1)例数大于40,且理论数小于5的格子数目<总格子数目的25%,则用普通的Pearson 检验2)例数小于40,或理论数小于5的格子数目>总格子数目的25%,则用Fisher’s确切概率法检验列变量为效应指标,且为有序多分类变量,行变量为分组变量,用普通的Pearson 检验只说明组间构成比不同,如要说明疗效,则可用行平均分差检验或成组的Wilcoxon秩和检验列变量为效应指标,且为二分类变量,行变量为有序多分类变量,则可采用普通的Pearson 检验比较各组之间有无差别,如果总的来说有差别,还可进一步作两两比较,以说明是否任意两组之间的差别都有统计学意义2.3 R×C表资料的统计分析列变量&行变量均为无序分类变量,则(1)例数大于40,且理论数小于5的格子数目<总格子数目的25%,则用普通的Pearson 检验。
2)例数小于40,或理论数小于5的格子数目>总格子数目的25%,则用Fisher’s确切概率法检验3)如果要作相关性分析,可采用Pearson相关系数列变量为效应指标,且为有序多分类变量,行变量为分组变量,用普通的Pearson 检验只说明组间构成比不同,如要说明疗效或强弱程度的不同,则可用行平均分差检验或成组的Wilcoxon秩和检验或Ridit分析列变量为效应指标,且为无序多分类变量,行变量为有序多分类变量,则可采用普通的Pearson 检验比较各组之间有无差别,如果有差别,还可进一步作两两比较,以说明是否任意两组之间的差别都有统计学意义列变量&行变量均为有序多分类变量,(1)如要做组间差别分析,则可用行平均分差检验或成组的Wilcoxon秩和检验或Ridit分析如果总的来说有差别,还可进一步作两两比较,以说明是否任意两组之间的差别都有统计学意义2)如果要做两变量之间的相关性,可采用Spearson相关分析2.4 配对分类资料的统计分析四格表配对资料,(1)b+c>40,则用McNemar配对 检验2)b+c<40,则用校正的配对 检验×C资料,(1)配对比较:用McNemar配对 检验。
2)一致性检验,用Kappa检验 在SPSS软件相关分析中,pearson(皮尔逊), kendall(肯德尔) 和spearman(斯伯曼/斯皮尔曼)三种相关分析方法有什么异同 两个连续变量间呈线性相关时,使用Pearson积差相关系数,不满足积差相关分析的适用条件时,使用Spearman秩相关系数来描述. Spearman相关系数又称秩相关系数,是利用两变量的秩次大小作线性相关分析,对原始变量的分布不作要求,属于非参数统计方法,适用范围要广些对于服从Pearson相关系数的数据亦可计算Spearman相关系数,但统计效能要低一些Pearson相关系数的计算公式可以完全套用Spearman相关系数计算公式,但公式中的x和y用相应的秩次代替即可 Kendall's tau-b等级相关系数:用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况对相关的有序变量进行非参数相关检验; 取值范围在-1-1之间,此检验适合于正方形表格; 计算积距pearson相关系数,连续性变量才可采用;计算Spearman秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据; 计算Kendall秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据。
计算相关系数:当资料不服从双变量正态分布或总体分布未知,或原始数据用等级表示时,宜用 spearman或kendall相关 Pearson 相关复选项 积差相关 计算连续变量或是等间距测度的变量间的相关分析 Kendall 复选项 等级相关 计算分类变量间的秩相关,适用于合并等级资料 Spearman 复选项 等级相关 计算斯皮尔曼相关,适用于连续等级资料注:1若非等间距测度的连续变量 因为分布不明-可用等级相关/也可用Pearson 相关,对于完全等级离散变量必用等级相关2当资料不服从双变量正态分布或总体分布型未知或原始数据是用等级表示时,宜用 Spearman 或 Kendall相关3 若不恰当用了Kendall 等级相关分析则可能得出相关系数偏小的结论则若不恰当使用,可能得相关系数偏小或偏大结论而考察不到不同变量间存在的密切关系对一般情况默认数据服从正态分布的,故用Pearson分析方法在SPSS里进入Correlate-》Bivariate,在变量下面Correlation Coefficients复选框组里有3个选项: Pearson Kendall's tau-b Spearman:Spearmanspearman(斯伯曼/斯皮尔曼)相关系数 斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。
它是依据两列成对等级的各对等级数之差来进行计算的,所以又称为“等级差数法” 斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究 Kendall's相关系数 肯德尔(Kendall)W系数又称和谐系数,是表示多列等级变量相关程度的一种方法适用这种方法的数据资料一般是采用等级评定的方法收集的,即让K个评委(被试)评定N件事物,或1个评委(被试)先后K次评定N件事物等级评定法每个评价者对N件事物排出一个等级顺序,最小的等级序数为1 ,最大的为N,若并列等级时,则平分共同应该占据的等级,如,平时所说的两个并列第一名,他们应该占据1,2名,所以它们的等级应是1.5,又如一个第一名,两个并列第二名,三个并列第三名,则它们对应的等级应该是1,2.5,2.5,5,5,5,这里2.5是2,3的平均,5是4,5,6的平均 肯德尔(Kendall)U系数又称一致性系数,是表示多列等级变量相关程度的一种方法该方法同样适用于让K个评委(被试)评定N件事物,或1个评委(被试)先后K次评定N件事物所得的数据资料,只不过评定时采用对偶评定的方法,即每一次评定都要将N个事物两两比较,评定结果如下表所示,表格中空白位(阴影部分可以不管)填入的数据为:若i比j好记1,若i比j差记0,两者相同则记0.5。
一共将得到K张这样的表格,将这K张表格重叠起来,对应位置的数据累加起来作为最后进行计算的数据,这些数据记为γij正态分布的相关检验 对来自正态总体的两个样本进行均值比较常使用T检验的方法T检验要求两个被比较的样本来自正态总体两个样本方差相等与不等时用的计算T值的公式不同此刻样本量对t检验方差不齐时使不使用校正公式的影响较大,参考:http://yihui.name/cn/2010/01/unequal-variance-in-t-test/) 进行方差齐次性检验使用F检验对应的零假设是:两组样本方差相等P值小于0.05说明在该水平上否定原假设,方差不齐;否则两组方差无显著性差异 U检验时用服从正态分布的检验量去检验总体均值差异情况的方法在这种情况下总体方差通常是已知的 虽然T检验法与U检验法所解决的问题大体相同,但在小样本(样本数n)=30作为大样本)且均方差未知的情况下就不能用U检验法了 均值检验时不同的数据使用不同的统计量 使用MEANS过程求若干组的描述统计量,目的在于比较因此必须分组求均值这是与Descriptives过程不同之处。
检验单个变量的均值是否与给定的常数之间存在差异,用One-Sample T Test 单样本T检验过程 检验两个不相关的样本是否来自来具有相同均值的总体,用Independent-Samples T test 独立样本t检验过程 如果分组样本不独立,用Paired Sample T test 配对t检验 如果分组不止两个,应使用One-Way ANOVA一元方差分析(用于检验几个独立的组,是否来自均值相等的总体)过程进行单变量方差分析 如果试图比较的变量明显不服从正态分布,则应该考虑使用一种非参数检验过程Nonparametric test. 如果用户相比较的变量是分类变量,应该使用Crosstabs功能 当样本值不能为负值时用右侧单边检验 1. Bartlett检验,会同时检验出样本的正态性以及样本间的方差齐性2. 线性约束有一个特别有用的用法:当不同组与不同的某种特定的数量(比如剂量)相对应时,线性约束中的系数可以取成能反应上述数量关系的值在不同组中样本量相差很大时,这特别有用因为小样本的组在统计检验时常易出现不显著的结果,但其趋势常在某个方向上。
线性约束有点意思!不过它的H0假设还是没弄明白,<<生物统计学基础>> 第500页,还有线性约束条件下的多重检验,Scheffe法)3. Kruskal-Wallis检验,适用于比较各组中位数的非参数检验,当数据的正态性假设不成立时,常用于取代单向方差分析的备选方法4. 重复性研究中变异系数的估计要求标准差独立于均数主要公式:CV=100% * (标准差/平均值)如果标准差不独立于均数,计算CV时,要先对每个值取对数变换,之后在计算主要细节:<<生物统计学基础>>第533页)################################################总体分布正态性检验进行参数估计和假设检验时,通常总是假定总体服从正态分布,虽然在许多情况下这个假定是合理的,但是当要以此为前提进行重要的参数估计或假设检验,或者人们对它有较大怀疑的时候,就确有必要对这个假设进行检验, 进行总体正态性检验的方法有很多种,以下针对MATLAB统计工具箱中提供的程序,简单介绍几种方法1)Jarque-Bera检验利用正态分布的偏度g1和峰度g2,构造一个包含g1,g2的分布统计量(自由度n=2),对于显著性水平,当分布统计量小于分布的分位数时,接受H0:总体服从正态分布;否则拒绝H0,即总体不服从正态分布。
这个检验适用于大样本,当样本容量n较小时需慎用Matlab命令:h =jbtest(x),[h,p,jbstat,cv] =jbtest(x,alpha)2)Kolmogorov-Smirnov检验通过样本的经验分布函数与给定分布函数的比较,推断该样本是否来自给定分布函数的总体容量n的样本的经验分布函数记为Fn(x),可由样本中小于x的数据所占的比例得到,给定分布函数记为G(x),构造的统计量为,即两个分布函数之差的最大值,对于假设H0:总体服从给定的分布G(x),及给定的,根据Dn的极限分布(n®¥时的分布)确定统计量关于是否接受H0的数量界限因为这个检验需要给定G(x),所以当用于正态性检验时只能做标准正态检验,即H0:总体服从标准正态分布Matlab命令:h =kstest(x)3)Lilliefors检验它将Kolmogorov-Smirnov检验改进用于一般的正态性检验,即H0:总体服从正态分布,其中由样本均值和方差估计Matlab命令:h =lillietest(x),[h,p,lstat,cv]=lillietest(x,alpha) 方差分析 一些归纳 (2010-01-11 13:37:57) 方差分析(ANOVA,analysis of variance)也叫F检验,由英国统计学家R. A. Fisher首先提出,因此也以他的名字命名。
1. 为什么要使用方差分析(核心原因,在于降低假阳性!) 与t检验一样,方差分析也是比较样本平均数的一种方式t检验比较的是两个样本平均数的差异,当样本个数增多,如果仍用t检验进行两两比较,那么就会增加犯错的概率因为每次检验不犯错的概率为1-0.05=0.95,那么多次(n次)检验下来,不犯错的概率则为(1-0.05)*n,随着n的增大,犯错的概率就会逐渐增多因此,当n大于2时,需要使用方差分析,它可以有效地控制第一类错误2. 方差分析的基本思想 方差分析的统计思想与“变异”紧密联系 全部测量值与总平均数的差异为总变异;各组平均数与总平均数的差异为组间变异,反映随机误差与处理的作用;每组的原始数据与该组平均数的差异为组内变异,反映随机误差的影响 影响事物(如:因变量)的因素有多种,根据不同的处理分为不同的组别(或:不同的处理条件),方差分析的基本的假设是------H0:各样本来自均数相等的总体(即:各条件之间无显著差异);H1:各样本均数不等或不全相等,表明各样本并非来自同一总体(各条件之间存在显著差异)以下以“样本”、“总体”为例来说明在此,“样本”类似于实验或调查中的“各种条件”(即不同水平的自变量)。
样本中的个体差异产生组内变异;如果调查的样本分为不同组别,那么组间也可能存在差异,即为组间变异,组间变异可能是抽样导致的,也可能由各组的处理不同导致;组内变异和组间变异加在一起,形成总变异 组间变异除以组内变异,可以看出二者的关系若二者的比等于1,则表明,组间变异是由组内变异造成的,不存在处理的作用,当然这是理论上的,世界上没有两片完全相同的叶子,也没有两个完全相同的人,由于实际上存在抽样误差,因此,组间与组内变异往往不会刚好相等,但如果不会相差太大,那么接受“各样本来自均数相等的总体”的假设;但如果两者的明显大于1且超出了某个临界值,则表明组间变异远大于组内变异,此时接受“各总体的均数不全相等”的假设,意味着二者的差异不仅是抽样误差导致的,更有处理的作用 变异由“均方”度量,圴方是由离差平方和(SS,sum of squares)和自由度(df,freedom)得到的,圴方=离差平方和/自由度,使用均方可以消除各组样本量(即自由度)的影响根据实验目的和各种条件,把总差异以及总自由度分为不同的部分,再算出各种条件下的变异(MS1、2、3…),比较不同条件的变异与组内变异,就可得出是否处理起了作用。
常说的“差异显著”其实是比较出了不同处理的作用3. 方差分析的前提及种类 方差分析的前提是:(1)数据具有可比性,数据是独立的,即各样本是相互独立的;(2)数据为正态分布,即各样本来自正态总体;(3)各组的方差齐性 方差分析主要有单因素方差分析(如完全随机设计)、多因素方差分析(包括两因素方差分析)4. 重复测量方差分析(以心理学实验为例) 在心理学实验中,当被试参与了所有的实验条件,且各种实验条件有相当的重复次数(远大于1次)时,统计时要考虑重复测量方差分析因为此时对因变量的测量是重复的,一种重复的测量得到的数据并非独立的,而是相关的,所以,不符合多因素方差分析中数据独立的前提 重复测量的数据可以使用SPSS统计软件进行统计其中输出的结果中先看球形检验的结果球形检验的结果只决定你将要用哪种输出结果”如果不满足球形检验的结果,就需要对结果进行校正,可以使用Greenhouse-Geisser(G-G)和Huynh-Feldt (H-F)方法进行校正G-G校正系数比较保守,有的会使用HF校正系数 在重复测量分析中,有四种多变量分析的方法较常见:Wilks’ Lambda,Pillai’s Trace,Hotelling-Lawley Trace和Roy’s Greatest Root。
使用SPSS分析得出的结果列表中,Multivariate Tests中就可以体现出这几种方法5. 主效应、交互作用及其它 检验主效应、交互作用,如果存在交互作用,则须进一步进行简单分析以判断各自变量的具体作用 有交互作用时(如因素A、B有交互作用),要在A因素不同水平下看B因素的效应,同样,也要在B因素的不同水平下看A因素的效应当交互作用不显著时,再解释主效应疑问:如果交互作用显著了,是否还要讨论主效应?是依情况而定吗?) 另外,多因素方差分析只能分析出因素之间的交互作用是否对因变量存在显著影响,但不能得出具体的影响大小如果需要得到具体的影响,需要用到回归分析 非参数统计分析――Nonparametric Tests菜单详解平时我们使用的统计推断方法大多为参数统计方法,它们都是在已知总体分布的条件下,对相应分布的总体参数进行估计和检验比如单样本u检验就是假定该样本所在总体服从正态分布,然后推断总体的均数是否和已知的总体均数相同本节要讨论的统计方法着眼点不是总体参数,而是总体分布情况,即研究目标总体的分布是否与已知理论分布相同,或者各样本所在的分布位置/形状是否相同。
由于这一类方法不涉及总体参数,因而称为非参数统计方法SPSS的的Nonparametric Tests菜单中一共提供了8种非参数分析方法,它们可以被分为两大类:1、分布类型检验方法:亦称拟合优度检验方法即检验样本所在总体是否服从已知的理论分布具体包括:Chi-square test:用卡方检验来检验二项/多项分类变量的几个取值所占百分比是否和我们期望的比例有没有统计学差异Binomial Test:用于检测所给的变量是否符合二项分布,变量可以是两分类的,也可以使连续性变量,然后按你给出的分界点一分为二Runs Test:用于检验样本序列随机性观察某变量的取值是否是围绕着某个数值随机地上下波动,该数值可以是均数、中位数、众数或人为制定一般来说,如果该检验P值有统计学意义,则提示有其他变量对该变量的取值有影响,或该变量存在自相关 One-Sample Kolmogorov-Smirnov Test:采用柯尔莫哥诺夫-斯米尔诺夫检验来分析变量是否符合某种分布,可以检验的分布有正态分布、均匀分布、Poission分布和指数分布2、分布位置检验方法:用于检验样本所在总体的分布位置/形状是否相同具体包括:Two-Independent-Samples Tests:即成组设计的两独立样本的秩和检验。
Tests for Several Independent Samples:成组设计的多个独立样本的秩和检验,此处不提供两两比较方法 Two-Related-Samples Tests:配对设计的两样本秩和检验 Tests for Several Related Samples:配伍设计的多样本秩和检验,此处同样不提供两两比较 一、 分布位置检验方法1、Two Independent Samples Test与 K Independent Samples Test用于检验两独立样本/多独立样本所在总体是否相同Two-lndependent-Samples Test对话框:(1) Test Variable框,指定检验变量2) Grouping Variable框,指定分组变量Define Groups对话框,Groupl和Groupl后的栏中,可指定分组变量的值3) TestType框,确定用来进行检验的方法Mann-Whitney U:默认值,相当于两样本秩和检验Kolmogorov-Smimov Z:K-S检验的一种。
Moses extreme reactions:如果施加的处理使得某些个体出现正向效应,而另一些个体出现负向效应,就应当采用该检验方法Wald-Wolfowitz runs:游程检验的一种,检验总体分布是否相同4) Options对话框,选择输出结果形式及缺失值处理方式多个独立样本检验中不同之处:Define Range对话框,定义分组变量值范围Minimum:分组变量范围的下限 Maximum:上限Test Type框,确定用来进行检验的方法Kruskal-WallisH:默认值,单向方差分析,检验多个样本在中位数上是否有差异; Median:中位数检验,检验多个样本是否来自具有相同中位数的总体2、Two Related Samples Test与 K Related Samples TestTwo Related Samples Test是考察配对样本的总体分布是否相同,或者说差值总体是否以0为中心分布;K Related Samples Test则用于检验多个配伍样本所在总体的分布是否相同Two-Related-SamplesTests对话框:(1)Test Pair(s)List框,指定检验变量对。
可有多对2)TestType框,确定检验的方法Wilcoxon:默认值,配对设计差值的秩和检验,利用次序大小Sign:符号检验,利用正负号McNemar:配对卡方检验,适用于两分类资料,特别适合自身对照设计Marginal Homogeneity:适用于资料为有序分类情况3)Options对话框中,选择输出结果形式及缺失值处理方式,K Related SamplesTest 用于多组间的非参数检验,不同之处在于:A、比较方法不同: ☆ Friedman:系统默认值,即最常用的随机区组设计资料的秩和检验,也被称为M检验 ☆ Kendall's W:该指标也被称为Kendall和谐系数,它表示的是K个指标间相互关联的程度(一致性程度),取值在0~1之间 ☆ Cochrarl's Q:是两相关样本McNemar检验在多样本情形下的推广,只适用于二分类变量B、Statistics对话框: Descriplive,描述统计量Quartiles,四分位数二、 分布类型检验方法原理:计算实际分布与理论分布间的差异,根据某种统计量求出 P 值1、Chi-square test与行×列表卡方检验区别:Chi-square test是检验分类数据样本所在总体分布(各类别所占比例)是否与已知总体分布相同,是一个单样本检验。
行×列表卡方检验是比较两个分类资料样本所在的总体分布是否相同,在spss中要用crosstable菜单来完成具体做法:先按照已知总体的构成比分布计算出样本中各类别的期望频数,然后求出观测频数与期望频数的差值,最后计算出卡方统计量,利用卡方分布求出P值,得出检验结论例5.1 某地一周内各日死亡数的分布如表所示,请检验一周内各日的死亡危险性是否相同?周日 一 二 三 四 五 六 日死亡数 11 19 17 15 15 16 19数据文件为death.sav:day 周日,death 死亡数Chi-Square Test对话框: (1)Test Variable List框,指定检验变量,可为多个变量2)ExpectedRange栏,确定检验值的范围· Get from data选项,即最小值和最大值所确定的范围,系统默认该项· Use specified range选项,只检验数据中一个子集的值,在Lower和Upper参数框中键入检验范围的下限和上限3)ExpectedValues栏,指定期望值· All categories equal选项,系统默认的检验值是所有组对应的期望值都相同,这意味着你要检验的总体是否服从均匀分布。
· Values选项,选定所要检验的与总体是否服从某个给定的分布,并在其右边的框中键人相应各组所对应的由给定分布所计算而得的期望值 “Add”按钮,增加刚键入的期望值,必须大于0Remove”按钮,移走错误值Change”按钮,替换错误值4)Options对话框A、Statistics栏,选择输出统计量Descriptive:输出变量的均值、标准差、最大值、最小值、非缺失个体的数量Quartiles 复选项,输出结果将包括四分位数的内容显示第25、50与75百分位数B、在MissingValues栏中选择对缺失值的处理方式具体操作如下:Data →Weight Case → Weight Case by:→ Frequency Variable: death →OK;Analyze→Nonparametic Test→Chi-Square→Test variable list:day→OK卡方值X2=2.875,自由度(DF)=6,P=0.824,可认为一周内各日的死亡性是相同的2、Binomial Test(二项分布检验)调用Binomial过程可对样本资料进行二项分布分析,检验二项分类变量是否来自概率为P的二项分布。
例5-2 某地某一时期内出生40名婴儿,其中女性12名(Sex=0),男性28名(sex=1)问该地出生婴儿的性比例与通常的男女性比例(总体概率约为0.5)是否不同?数据文件为sex.savBinomial Test对话框:(1) Test Variable框,指定检验变量2) Define Dichotomy栏,定义二分值· Get from data选项,适用于指定的变量只有两个有效值,无缺失值· Cut point选项,如果指定的变量超过两个值,选择该项,并在参数框中键入一个试算点的值3)Test参数框,指定检验概率值默认的检验概率值是0.5,这意味着要检验的二项是服从均匀分布的3) Options对话框,选择输出结果形式及缺失值处理方式具体操作如下: Binomial TestTest → Test Variable List → sex → Test Proportion → 0.50 →OK二项分布检验表明,女婴12名,男婴28名,观察概率为0.7(即男婴占70%,检验概率为0.5,二项分布检验的结果是双侧概率为0.018,可认为男女比例的差异有高度显著性,即与通常的0.5的性比例相比,该地男婴比女婴明显多。
3、Runs Test(游程检验)一个游程是指某序列中同类元素的一个持续的最大主集,或者说一个游程是指依时间或其他顺序排列的有序数列中,具有相同的事件或符号的连续部分游程检验用于检验样本或任何序列的随机性例5-3 某村发生一种地方病,其住户沿一条河排列,调查时对发病的住户标记为1,非发病住户为0,共26户,如下表所示0 1 1 0 0 0 1 0 0 1 0 O 0 0 1 1 O 0 1 0 0 0 0 1 0 l数据文件为run.sav:住户变量为epiRuns Test 对话框:(1) Test Variable框,指定检验变量2) Cut Point栏,确定划分二分类的试算点中位数、众数、均数及用户指定临界割点3) Options对话框,选择输出结果形式及缺失值处理方式具体操作如下:Runs Test → Test Variable → epi → 1 → OK从检验结果可见,本例游程个数为14,小于1有17个案例;而大于或等于1有9个案例Z=0.325,双尾检验概率P=0.746所以认为此地方病的病户沿河分布的情况无聚集性,而是呈随机分布。
4、单样本K-S检验又称单样本柯尔莫哥洛夫-斯米诺夫检验(one-sample Kolmogorov-Smirmov tes)它是频数优度拟合检验,用于检验变量是否服从某一指定分布调用此过程可对单样本进行Kolmogorov-Smimov Z检验,它将一个变量的实际频数分布与正态分布(Normal)、均匀分布(Uniform)、泊松分布(Poisson)进行比较例5-4 某地101例健康男子血清胆固醇值测定结果如下见数据文件dguchun.sav,试分析该数据是否服从正态分布?One-Sample K-S Test对话框: (1)Test Variable框,指定检验变量 (2)Test Distribution框,确定分布检验分别有:正态分布(Normal)、均匀分布(Uniform)、泊松分布(Poisson)和指数分布(Exponential)默认为Normal3)Options对话框,选择输出结果形式及缺失值处理方式具体操作如下:One-Sample K-S Test → Test Variable: X → OKK-S正态性检验的结果显示,Z值=0.724,双尾检验概率P值=0.671,可认为变量X符合正态分布。
三、非参数检验中的一些问题 1. 在多数情况下,如果非参数检验结论为有统计学意义,相应正确的参数检验结 论大多与之相同如果出现矛盾酌情况,必须仔细考察参数检验的条件是否符合,多数情况下都是这里出了问题 2.当结果变量为两分类或多分类时,我们仍然可以采用非参数检验方法分析,但 此时也可以使用Crosstabs过程中的卡方检验,尤其是X2CMH统计量进行分析该统计量和秩和检验实质上的区别只在于次序的评分方式不同,即秩和检验中有平均秩次的问题,而X2CMH统计量对相同数值都给予相同评分,不考虑重复数的多少一般来说,它们的检验结果差别不会太大 3.如果大部分数据分布比较集中,但存在少数非常大/小的极端值,此时仅采用 非参数分析方法尚不能完全概括信息,最好能在分析结束后单独对这些极端值给出描述,以充分反映样本特征 4.多组比较后总体有差异,接下来的问题应当是两两比较,但由于这方面还有一定争议,包括SAS、SPSS在内的所有权威统计软件均未提供该功能此时我们可以采用以下两种对策: ☆ 两两进行两组间的非参数检验,但一定要调整α水准,以保证总的α比较水准控制在0.05,否则就会犯和多组均数比较时采用两两t检验性质相同的错误。
☆ 当各组例数较多时,可以采用秩变换分析,操作更加方便,而结论也更加准确四、秩变换分析方法 在本章中我们已经学习了非参数分析方法,但还有很多的问题无法解决,这里向大家介绍一种通用的非参数分析原理,希望能对大家有所帮助所谓秩变换分析方法,就是先求出原变量的秩次,然后使用求出的秩次代替原变量进行参数分析,当样本含量较大时,该方法的分析结果和相应的非参数方法基本一致,但该方法可以充分利用已知的参数方法,如多组样本的两两比较、多元回归等,从而大大扩展了非参数分析方法的范围 SPSS中的Rank过程可以用来求出秩次,该过程默认得到的是从1~n均匀分布的秩次,使用者也可以自行指定生成正态分布的秩次,但这一般不需要,即基本不影响分析结果例5-7 今欲研究胸腺增生病人中增生情况于titinab值的关系,共调查了141名病人,数据见titinab.sav变量class表示胸腺增生情况,分为1~5级;titinab为测量值请比较class各级之间有无显著差异具体操作如下:Transform → RankCases → Variables框:titinab(计算titinab的秩次)→OKAnalyze → CompareMeans → One-Way ANOVA → Dependent List框:rtitinab(要分析的应变量)→ Factor框:class(分组变量)→ Post Hoc:LSD(使用LSD进行两两比较)→ Continue →OK上表为对秩次进行方差分析的结果,可见秩次在五组间的差别有显著的统计学意义。
上表为使用LSD法进行五组间两两比较的结果,大家可以将上述结果和采用对数变换后的分析结果相比较,就会发现秩变换分析方法和对数变换分析方法得到的统计量和P值都非常接近。