非参数统计部分课后习题参考答案
课后习题参考答案第一章p23-252、(2)有两组学生,第一组八名学生的成绩分别为x1:100,99,99,100,99,100,99,99;第二组三名学生的成绩分别为x2:75,87,60我们对这两组数据作同样水平a=0.05的t检验(假设总体均值为u):H0:u=100 H1:u<100第一组数据的检验结果为:df=7,t值为3.4157,单边p值为0.0056,结论为“拒绝H0:u=100注意:该组均值为99.3750);第二组数据的检验结果为:df=2,t值为3.3290,单边p值为0.0398;结论为“接受H0:u=100注意:该组均值为74.000)你认为该问题的结论合理吗?说出你的理由,并提出该如何解决这一类问题答:这个结论不合理(6分)因为,第一组数据的结论是由于p-值太小拒绝零假设,这时可能犯第一类错误的概率较小,且我们容易把握;而第二组数据虽不能拒绝零假设,但要做出“在水平a时,接受零假设”的说法时,还必须涉及到犯第二类错误的概率4分)然而,在实践中,犯第二类错误的概率多不易得到,这时说接受零假设就容易产生误导实际上不能拒绝零假设的原因很多,可能是证据不足(样本数据太少),也可能是检验效率低,换一个更有效的检验之后就可以拒绝了,当然也可能是零假设本身就是对的。
本题第二组数据明显是由于证据不足,所以解决的方法只有增大样本容量4分)第三章p68-713、在某保险种类中,一次关于1998年的索赔数额(单位:元)的随机抽样为(按升幂排列):4632,4728,5052,5064,5484,6972,7596,9480,14760,15012,18720,21240,22836,52788,67200已知1997年的索赔数额的中位数为5064元1)是否1998年索赔的中位数比前一年有所变化?能否用单边检验来回答这个问题?(4分)(2)利用符号检验来回答(1)的问题(利用精确的和正态近似两种方法)10分)(3)找出基于符号检验的95%的中位数的置信区间8分)解:(1)1998年的索赔数额的中位数为9480元比1997年索赔数额的中位数5064元是有变化,但这只是从中位数的点估计值看如果要从普遍意义上比较1998年与1997年的索赔数额是否有显著变化,还得进行假设检验,而且这个问题不能用单边检验来回答4分)(2)符号检验(5分)设假设组:H0:M=M0=5064H1:M≠M0=5064符号检验:因为n+=11,n-=3,所以k=min(n+,n-)=3精确检验:二项分布b(14,0.5),,双边p-值为0.0576,大于a=0.05,所以在a水平下,样本数据还不足以拒绝零假设;但假若a=0.1,则样本数据可拒绝零假设。
查二项分布表得a=0.05的临界值为(3,11),同样不足以拒绝零假设正态近似:(5分)np=14/2=7,npq=14/4=3.5z=(3+0.5-7)/≈-1.87>Za/2=-1.96仍是在a=0.05的水平上无法拒绝零假设说明两年的中位数变化不大3)中位数95%的置信区间:(5064,21240)(8分)7、一个监听装置收到如下的信号:0,1,0,1,1,1,0,0,1,1,0,0,0,0,1,1,1,1,1,1,1,1,1,0,1,0,0,1,1,1,0,1,0,1,0,1,0,0,0,0,0,0,0,0,1,0,1,1,0,0,1,1,1,0,1,0,1,0,0,0,1,0,0,1,0,1,0,1,0,0,0,0,0,0,0,0能否说该信号是纯粹随机干扰?(10分)解:建立假设组: H0:信号是纯粹的随机干扰H1:信号不是纯粹的随机干扰(2分)游程检验:因为n1=42,n2=34,r=372分)根据正态近似公式得:U=(2分)(2分)取显著性水平a=0.05,则Za/2=-1.96,故接受零假设,可以认为信号是纯粹的随机干扰的2分)第四章p91-941、在研究计算器是否影响学生手算能力的实验中,13个没有计算器的学生(A组)和10个拥有计算器的学生(B组)对一些计算题进行了手算测试.这两组学生得到正确答案的时间(分钟)分别如下:A组:28, 20,20,27,3,29,25,19,16,24,29,16,29B组:40,31, 25,29,30,25,16,30,39,25能否说A组学生比B组学生算得更快?利用所学的检验来得出你的结论.(12分)解、利用Wilcoxon两个独立样本的秩和检验或Mann-Whitney U检验法进行检验。
建立假设组:H0:两组学生的快慢一致; H1:A组学生比B组学生算得快2分)两组数据混合排序(在B组数据下划线):3,16,16,16,19,20,20,24,25,25,25,25,27,28,29, 29, 29, 29,30, 30,31,39,40(2分)A组秩和RA=1+3*2+5+6.5*2+8+10.5+13+14+16.5*3=120;B组秩和RB=3+10.5*3+16.5+19.5*2+21+22+23=156(2分)A组逆转数和UA=120-(13*14)/2=29B组逆转数和UB=156-(10*11)/2=101(2分)当nA=13,nB=10时,样本量较大,超出了附表的范围,不能查表得Mann-Whitney秩和检验的临界值,所以用正态近似计算(2分)当显著性水平a取0.05时,正态分布的临界值Za/2=-1.96(1分)由于Z 计算(2分)当显著性水平a取0.05时,正态分布的临界值Za/2=1.96(1分)由于Z 2分)7、按照一项调查,15名顾客对三种电讯服务的态度(“满意”或“不满意”)为(15分)服务消费者(爱好用“1”表示,不爱好用“0”表示)合计A11111111011111013B1000110100011118C0001000000010002合计21122212011322123解:建立假设组:H0:顾客对3种服务的态度无显著性差异; H1:顾客对3种服务的态度有显著性差异2分)本例中,k=3,n=152分)又因(5分)自由度k-1=3-1=2,(2分)取显著性水平a=0.05,查X2分布表得临界值c=5.992,(2分)因为Q>C,故以5%的显著水平拒绝H0假设,即顾客对3种服务的态度有显著性差异2分)8、调查20个村民对3个候选人的评价,答案只有“同意”或“不同意”两种,结果见表1:表1候选人20个村民的评价(“同意”为1,“不同意”为0)A11000010001001100111B01101011000100010001C00111100001011111010试检验村民对这三个候选人的评价有没有区别?解:建立假设组: H0:三个候选人在村民眼中没有区别H1:三个候选人在村民眼中有差别(2分)数据适合用Cochran Q检验(2分)。 而且已知n=20,k=3,∑xi=∑yj =282分)计算结果见表3:表33个候选人20个村民的评价(“同意”为1,“不同意”为0)XiA110000100010011001119B011010110001000100018C0011110000101111101011Yj1221212100211222112228根据表2计算得:(2分)则(2分)取显著性水平a=0.05,查卡方分布表得卡方临界值C=5.9915,由于Q 1)K-S正态拟合检验见表1:表1 K-S拟合检验计算表样本数据xi标准化值Zi正态区间正态累计概率实际累计频率离差(1)(2)(3)(4)(5)(6)=(4)-(5)9.934-3.0000(-∞,-3)0.0010.00.0019.954-2.0909[-3,-2.09)0.0180.1-0.0829.965-1.5909[-2.09,-1.59)0.0560.2-0.1449.967-1.5000[-1.59,-1.50)0.0670.3-0.2339.969-1.4091[-1.50,-1.41)0.0790.4-0.3219.992-0.3636[-1.41,-0.36)0.3580.5-0.1429.994-0.2727[-0.36,-0.27)0.3930.6-0.20710.0010.0455[-0.27,0.05)0.5180.7-0.18210.0130.5909[0.05,0.59)0.7230.8-0.07710.0231.0455[0.59,1.05)0.8520.9-0.048--[1.05,∞)1.0001.00.000K-S拟合检验统计量取最大的绝对离差Dn=0.321(5分),由于检验统计量小于临界值0.40925,所以无法拒绝零假设,即可以说该车间生产的轴直径服从均值为10,标准差为0.022的正态分布(2分)。 2)卡方正态拟合检验见表2:表2 卡方拟合检验计算表样本数据xi标准化值Zi正态区间正态概率预期频数Еi=(4)×10小预期频数合并实际频数Oi(Oi-Еi)2/Еi(1)(2)(3)(4)(5)(6)(7)(8)9.934-3.0000(-∞,-3)0.0010.0133.58150.5639.954-2.0909[-3,-2.09)0.0170.1699.965-1.5909[-2.09,-1.59)0.0380.3759.967-1.5000[-1.59,-1.50)0.0110.1109.969-1.4091[-1.50,-1.41)0.0130.1269.992-0.3636[-1.41,-0.36)0.2792.7879.994-0.2727[-0.36,-0.27)0.0340.3451.60120.10010.0010.0455[-0.27,0.05)0.1261.25610.0130.5909[0.05,0.59)0.2052.0462.04610.53510.0231.0455[0.59,1.05)0.1291.2941.29410.067--[1.05,∞)0.1481.4791.47910.155合计--1.00010.00010.000101.419 由于存在小预期频数,所以要合并,直到预期频数都大于1(见第(6)列),同时计算合并后的实际频数(该步正确2分)。 从表2得卡方检验统计量Q=1.419(6分),自由度df=k-1=5-1=4(2分),查卡方分布表得a=0.05的临界值C=1.064(左尾),右尾临界值9.488(2分),说明检验统计量Q落在肯定域,不能拒绝零假设,即可以说该车间生产的轴直径服从均值为10,标准差为0.022的正态分布(2分)第九章p184-1861、美国在1995年因几种违法而被捕的人数按照性别为:表1性别男女谋杀139271457抢劫11674112068恶性攻击32847670938偷盗23649529866非法侵占704565351580偷盗机动车11917518058纵火114132156从这些罪行的组合看来,是否与性别无关?如果只考虑谋杀与抢劫罪,结论是否一样?(20分)解:本题适合用独立性卡方检验建立假设组H0:犯罪类型与性别无关H1:犯罪类型与性别有关r=7,c=2.自由度df=(7-1)(2-1)=6a=0.05,查表得X2(0.95,6)=12.592Eij=ni.n.j/n计算结果见下表: 男(Qi1)女(Qi2)合计Ei1Ei2(Qij-Eij)^2/Eij 谋杀1392714571538411676.13707.899433.92431731366.4193抢劫1167411206812880997763.0631045.943684.03067911600.942恶性攻击3284767093839941430314696267.982116.4977256664.8107偷盗23649529866266361202161.964199.145830.79568218361.064非法侵占7045653515801056145801589.7254555.311743.9069636981.338偷盗机动车11917518058137233104156.733076.322165.485726819.073纵火1141321561356910298.563270.442120.5974995379.75921X^2=合计15307924861232016915 26095.2385882173.406108268.6由于X2=108268.6>X2(0.95,6)=12.592,所以拒绝零假设,说明罪行与性别有关。 如果只考虑谋杀与抢劫,则 男(Qi1)女(Qi2)合计Ei1Ei2(Qij-Eij)^2/Eij 谋杀1392714571538413941.011442.9870.01408570.136085抢劫1167411206812880911672712082.010.0016822920.016253X^2=合计13066813525144193 0.0157679920.1523380.168106由于X2=0.1681




