医学统计工作的基本步骤
医学统计工作的基本步骤1 设计主要指统计设计,是影响研究能否成功的最关键环节,是提高观察或实验质量的重要保证内容包括对资料搜集,整顿和分析全过程的设想与安排实验设计的三大原则: 随机化,重复,对照2 搜集资料:目的指应采取措施使能取得准确可靠的原始数据来源:统计报表,工作记录,专题调查或实验研究,统计年鉴和统计数据专辑要求:随机性和样本含量足够大3 整顿资料:将原始数据净化,系统化和条理化,为下一步计算和分析打好基础过程4 分析资料:在表达数据特征的基础上,阐明事物的内在联系和规律性,包括两方面:统计描叙和统计推断17 均数的可信区间与参考值范围的区别? 均数的可信区间与参考值范围的区别主要体现在含义, 计算公式和用途三个方面的不同 (1)意义:均数的可信区间是按预先给定的概率,确定的未知参数的可能范围实际上一次抽样算得的可信区间要么包含了总体均数, 要么不包含 但可以说: 该区间可多大 (如当 a=0.05时为 95%)的可能包含了总体均数 而 参考值范围是指‘正常人’ 的解剖,生理生化某项指标的波动范围均数的可信区间计算公式( 1)σ 未知: X ±指均数可信区间的用途:估计总体均数,参考值范围是指判断观察对象的某项指标是否正常。
7. 假设检验与区间估计的关系: 置信区间具有假设检验的主要功能;置信区间在回答差别有无统计学意义的同时,还可以提示差别是否具有实际意义;假设检验可以报告确切的 P 值,还可以对检验的功效做出估计1.标准差与标准误的区别: 标准差是衡量观察值的离散趋势,描述正态分布资料的频数标准误是样本均数的变异程度,表示抽样误差的大小,用于总体均数区间估计两者联系:两者都是变异指标在样本含量一定时, S 越大标准误也越大,即在抽取相同例数的前提下,标准差越大,抽到的样本均数的抽样误差也越大2.P 值和 α :P 值时从样本求得 H0 条件下随机抽样得到目前的统计量以及更极端统计量的概率,反映样本信息是否支持 H0 ,也反映做出拒绝或不拒绝 H0 决定的理由充分程度 α 时人为确定的小概率,容许犯第二类错误的概率,用作门槛,称检验水平在假设检验中,通常时将P 与 α对比来得到结论, 3.标准正态分布与 t 分布有何不同: t 分布为抽样分布,标准正态分布为理论分布 t 分布比标准正态分布的峰值低,且尾部瞧得更高随着自由度的增大, t 分布逐渐趋于标准正态分布当自由度趋于无穷大时,t 分布趋近于标准正态分布。
4.假设检验中, 当 P<0.05 时,拒绝 H0 的理论依据 P 值是指从 H0规定的总体随机抽得等于及大于现有样本获得的检验统计量值的概率当P<0.05 时,说明在 H0 成立的条件下,得到现有检验结果的概率小于通常确定的小怪绿时间标准的 0.05因小概率事件在一次试验中几乎不可能发生,现的确发生了,说明现在样本信息不支持 H0 ,所以怀疑原假设 H0 不成立,拒绝 H0 5.t 检验应用的条件 :对单样本 t 检验要求资料服从正态分布;配对t 检验要求差值服从正态分布;对两样本 t 检验则要求数据均服从正太分布,且两样本对应的两总体方差相等6.I 型错误和Ⅱ型错误得区别与联系:I 型错误是指拒绝了实际成立的H0 所犯的弃真的错误,其概率大小用α 表示,Ⅱ型错误是指接受了实际上不成立的H0 所犯的取伪错误,其概率用 β表示当样本含量N 确定时, α 越小 β越大,反之, α 越大 β越小了解这两类错误的实际意义在于,若在应用中要重点减少α ,则取 α=0.05 ;若要在应用中要重点减少 β ,则取 α =0.10 或- 20 甚至更高7.假设检验和区间估计有何联系:假设检验用于推断质的不同即判断两个或多个总体参数是否不等,而可信区间用于说明量的大小即推断总体参数的范围。
两者有联系也有区别,假设检验与区间估计的联系在于可信区间也可以回答假设检验的问题,若算得的可信区间若包含了H0,则按 α水准,不拒绝 H0 ,若不包含 H0 ,则按照 α 水准,拒绝 H0,接受 H1也就是说在判断两个总体参数不等时,假设检验和可信区间时完全等价的1.方差分析的基本思想和应用条件是什么 方差分析的基本思想时根据试验设计的类型,将全部测量值总的离均差平方和及其自由度分解为两个或多个部分,除随机误差作用外,每个部分的编译可由某个因素的作用加以解释通过比较不同变异来源的均方,借助 F 分布做出统计推断,从而推论各种研究因素对试验结果有无影响应用条件:各样本是互相独立的随机样本,均服从正态分布;相互比较的各样本的具有方差齐性2.SS 组间和 SS 组内各表示什么含义 SS 组间表示组内变异,指各处理组样本拘束大小不等,是由处理因素和随机误差造成的, SS 组内表示组内变异,指各组处理组内变量值大小不等,是由随机误差造成的3.为什么在方差分析中的结果为拒绝H0 、接受H1之后,对多个样本均数的两辆比较要用多重比较的方法:方差分析的备择假设H1时 g 各总体均数不全像等,拒绝H0,接受H1,只说明g 各总体均数总的来说有差别,并不能说明两辆总体均数有差别。
若要进一步了解两辆总体均数不等,则需进行多个样本均数间的多重比较1 常用的相对数有哪几种?简述各种相对数指标的含义,计算方法及特点 有强度相对数(率) 、结构相对数、相似比率的含义:某种现象实际发生得例数与可能发生的总体例数之比,说明某现象发生的频率或强度构成比的含义:食物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明个构成部分在总体中所占比重或分布,又称百分比相对比:是两个有关指标之比,说明两指标间的比例关系2.何为标注化法,描述直接标准化法与间接标准化法的区别? 采用某影响因素的统一标准构成,然后计算标准化率的方法称为标准化法,其目的时消除原样本内部某影响因素构成不同对合计率的影响,使通过标准化后的标准化和纪律具有可比性直接标准化法和间接标准化法的区别在于:如对死亡率的年龄构成标准化,若已知年龄别死亡率,可采用直接法,选择一个标准年龄人口构成直接计算标准化率;若只有总的死亡数和年龄别人口数而缺乏年龄别死亡率时,宜用间接法,选择一个标准年龄别死亡率,先计算标准化死亡比,再用标准化死亡比乘以标准总死亡率得到标准化死亡率3.应用标准化率进行比较时要注意什么问题 ①标准化法只适用与因两组内不构成不同,并有可能影响两组总率比较的情况,对与其他因其他条件不同而产生的可比性问题,标准化法不能解决;②由于选择的标准人口不同,算出的标准化率也不同,因此,当比较几个标准化率时,应采用同一标准人口;③标准化后的标准化率,已经不再反映当时当地的实际水平,他只是表示相互比较的资料间的相对水平;④两样本标准化率时样本值,存在抽样误差。
比较两样本的标准化率,还应做假设检验4.相对数的动态指标有哪几种?各有何用处? 相对数的动态指标及其动态数列分布指标有:绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度绝对增长量时说明其相对数在一定时期增长的绝对值;发展速度与增长速度均为相对比,说明某相对数在一定时期的速度变化;平均发展速度时各环比发展速度的集合均数,说明某相对数在一个较长时期中逐期平均发展变化的程度1 二项分布、 Poisson分布和正态分布间的联系 ( 1);当 N 很大, π 很小,且 Nπ= λ为常数时,二项分布近似 Poisson 分布( 2)在 n 很大、 π不接近 0 也不接近 1 时,二项分布 B ( n,π)近似正态分布,而相应的样本率p 的分布也近似正态分布N ( 3)当 λ 增大时,Poisson 分布渐进正态分布,当λ ≥20 时, Poisson分布资料可做正态分布处理2 二项分布的应用条件是什么? 答:( 1)每次实验只有发生两种互斥的可能结构之一,即两种互斥结果的概率之和恒等于 1; (2)每次实验产生某种结果(如阳性)的概率固定不变; (3)重复实验是相互独立的,即任何一次实验结果的出现不会影响其他实验结果出现的概率。
3.Poisson分布的性质特征是什么?① 总体均数与总体方差相等; ②当 N 很大, π很小,且 N π= λ为常数时,二项分布近似 Poisson 分布; ③ 当 λ增大时, Poisson 分布渐进正态分布,当 λ≥ 20 时,Poisson 分布资料可做正态分布处理; ④Poisson 分布具有可加性即对于服从poisson 分布的 m 个相互独立的随机变量X1X2 ⋯..Xm ,它们之和也服从 poisson 分布,且其均数也这 m 个随机变量的均数之和问答:1.对于四表格资料,如何正确选用检验方法?①首先应分清时两样本率比较的四表格还是配对设计的四表格资料;②对于两样本率比较的四表格资料,应根据各格的理论值T 和总例数 N 的大小选择不同的卡方检验计算公式2.说明行 X 列资料卡方检验应注意的事项:①行 X 列表中的理论频数不应小于1,或 1≤T <5 的格子数不宜超过格子总数的 1/5②多个样本率比较,若所得统计推断为拒绝H0 ,接受 H1, 只能人为各总体率之间总的来说有差别,但不能说明任两个总体率之间皆有差别要进一步推断哪两个总体率之间有差别,需进一步做多个样本率的多重比较③对于有序的RXC 表资料不宜用卡方检验。
对于RXC 表的资料要根据其分类类型和研究目的选用恰当的检验方法3 说明 X 2 检验的用途:答:X 2 检验的用途比较的广,通常多用于推断两个总体率或构成比之间有无差别,推断多个总体率或构成比之间有无差别,多个样本率比较的 X 2 分割,两个分类变量之间有无关联性,频数分布拟合优度的 X 2 检验4.两样本率比较的 u 检验与 X 2 检验有何异同?两样本率比较时,若对同一资料进行 t 检验与 X 2 检验,在不校正的情况下 X 2 =U2 ,但 u 检验通常用于大样本,而 X 2 检验用于或小样本1.直线回归分析中应注意哪些问题? ①两个变量的选择一定要结合专业背景,不能把毫无关联的两种现象勉强作回归分析,其中哪一个作为应变量主要是根绝专业上的要求而定,同时直线回归要求至少对于每个X 相应的 Y 要服从正态分布, X 可以是服从正态分布的随机变量也可以时能够精确测量和严格控制的非随机变量②进行直线回归分析前应绘制散点图,以检查数据是否满足模型基本假设,发现离散点并进行进一步处理③对结果应有正确解释反映两变量间数量上影响大小的统计量应该是回归系数的绝对值,而不是建设检验的 P 值 P 值越小只能说约有理由人为变量间的直线关系存在,而不能说关系越密切或越显著。
直线回归用于预测时应尽量不合理的外延结果中的决定系数可以表示两变量关系的实际效果2.简述直线回归与直线相关的区别与联系 两者的联系:①对于即可做相关又可做回归分析的同一组数据,算出的相关系数和回归系数正负号一致②相关系数与回归系数得假设检验等价③同一组数据的相关系数和回归系数可以相互换算④用回归解释相,当总平方和固定时,回归平方和的大小决定了相关的密切程度,回归平方和越接近总平方和,则决定系数越接近 1,说明相关的效果越好两者的区别:①资料要求上:相关要求X 、Y服从双变量正态分布,这种资料进行回归分析为Ⅱ型回归;回归要求Y 在给定某个X 值时服从正态分布,X 时可以精确测量和严格控制的变量,称为I 型回归②应用上:说明两变量间相互关系用相关,此时两变量的关系是平等的;而说明两变量间依存变化的数量关系用回归,用以说明Y 如何依赖与X 而变化③意义上:相关系数说明具有直线关系的两变量间相互关系的方向与密切程度;回归系数表明X每变化一个单位所导致Y 的平均变化量3.直线相关与秩相关的区别与联系 联系:①两者所决绝的应用问题相同,都可用来表示两个数值变量之间的方向和密切程度。
②两个相关系数都没有单位③计算上,用秩次做积差相关,得到就是秩相关系数区别:①资料要求不同,积差相关要求 X 、Y 服从双变量正态分布,秩相关可以时任意分布②由于对资料要求不同,两者分属于参数统计与非阐述统计方法,所以符合双变量正态分布条件时,积差相关的效率高于秩相关③两者假设检验的方法不同4.描述曲线拟合时的注意事项: ①首先应绘制散点图,根据图形选用恰当的回归模型形式;②求解回归方程时注意,模型中对 Y 进行非线性转换后,应采用非线性最小二乘估计,如果仅对 X 进行变换,普通最小1:为什么要做多变量线性回归分析?因为医学中很多疾病的预后都是由多重因素决定的由于各个因素往往相互作用,多变量回归分析可以帮助我们分析变量间的数量依存关系,找出危险因素的多面性本质,以及他们对结果变量的相对作用大小同事多变量回归还可以在医学干预研究中,对混杂因素进行校正2:多元线性回归可以实用哪些类型的自变量?典型的多元线性回归所使用的自变量类型应该是连续的,但是如果自变量中含有分类变量,经过适当的处理后任然适合做多元线性回归分析,二分类变量可以直接实用如果自变量是一个名义分类变量,可以将其转化为若干个 2 分类变量后进行分析。
如果自变量是个有序分类变量,则可以根据不同级别赋予不同分数后胺连续变量处理,也可以按名义分类变量的方式处理3:多元线性回归分析中如何筛选自变量?你认为选用哪种方法更好些?回归分析中引入什么变量,理想的做法是由研究者根据理论和经验决定在缺乏专业依据的情况下,可以采用回归筛选技术具体有两类做法:一是全局择优法,二是逐步选择法理论上讲,由于全局择优法是对自变量各种不同组合情况进行比较后,从中挑取的一个最优回归方程,这种方法最好但是由于实际中自变量的数目往往较大,采用逐步选择法比较好逐步选择法有前进法,后退法和逐步回归法后退法考虑到了自变量的组合作用,理论上更好一些,但变量数目不能太多,而逐步回归法适合多种情况,更实用些4:何谓多重共线性?它对资料分析有什么影响?多重共线性指多元回归中一些自变量之间存在较强的线性关系,这种情况在实际应用中非常普遍这些自变量通常是相关的,如果这种相关程度非常高,所得到的回归方程可能不可靠如将一些很有统计学意思的自变量变得不显著,出现回归系数估计值的正负符号与客观实际不一致等问题5:如何评价所建立的多元线性回归方程的优劣?残差分析有何作用?一般情况下评价的准则可以采用方差分析法和求决定系数R 平方法。
方差分析的F 检验是吧所有的自变量作为一个整体,检验他们对应变量Y 的影响是否具有统计学意义F 值越大,P 值越小,表示越有理由拒绝自变量与应变量间没有线性关系的无效假设决定系数越接近1,说明模型对数据的拟合度越好残差分析是检查资料是否符合回归模型条件的一种简单而有效的方法通过残差分析,常可以检查出数据模型的错误,如应变量 Y 与自变量的非线性关系等6:如何看待回归分析中的离群值,应如何处理?首先检查这些离群点是否由于观测错误引起,如果确系此类错误,需要讲这些点改正或者删除后重新建立新方程否则应仔细分析产生的原因,如果这些点对回归分析的结果影响很大,应该从专业角度决定其取舍logistic回归分析需注意的问题:1.需要有足够的样本量来保障参数估计的稳定性2.多变量的 logistic 回归对自变量进行筛选不要完全依赖计算机和检验水平来筛选,临床与流行病学的意义和生物学机制在模型结果解释中占更重要的地位3.logistic 回归模型的自变量可以是无序多分类变量,常用多个 0-1 假变量来代替,使结果更容易解释4.在大规模的队列研究和横断面研究、临床的诊断试验和疗效评价试验,不同暴露层或处理组的疾病(或死亡)分布与研究总体人群中疾病(或死亡)的分布一致时,常数项才有意义。
l ogistic回归与线性回归有什么不同?两种方法各有什么特点?logistic回归属于概率型非线性回归,应变量Y 是一个二值变量(服从二项分布),而线性回归的应变量一般为连续变量(正态分布) 线性回归对资料的分析比较细腻,既适合大样本资料又可用于小样本数据,但要求对不痛的自变量取值,应变量Y 服从正态分布和等方差,这一条件在实际中有时不能满足Logistic回归则对资料几乎没什么限制,而且参数具有明确的实际意义,但是要求有较大的样本含量logistic回归可以实用哪些类型的自变量?可以使用连续变量,名义分类变量和有序分类变量对名义分类变量须做化哑变量,有序分类变量可以按照连续变量或哑变量两种方法处理如果自变量中既有连续变量又有分类变量,最好将连续变量化为分类变量处理logistic回归的适用范围是什么?应注意哪些问题?一般来讲,只要应变量是一个二值变量,样本含量又比较大,都可以考虑适用logistic回归分析logistic回归分析多用于流行病学的病因学研究此外,logistic回归也适合于临床试验评价及疾病的预后因素分析,试验研究中药物的剂量反应分析等应该注意的是logistic回归分析一般不能用于小样本,另外要对自变量做合理的编码处理。
对有序自变量该如何处理?如何自变量是一个有序变量,两种方法:一是对每一登记赋予一个分值,然后按连续变量处理,另一种方法是将自变量用若干二分类的哑变量表示如果方程中的变量不是很多,样本含量又比较大,用哑变量方法比较好但当自变量多,样本含量又不大的时候,将 K 个分类的有序变量化成 K-1 个哑变量后,自变量的数目增多,建立的回归方程可能不稳定,这时按得分处理更合适一些用逐步回归法得到的回归方程是否最优?为什么?不一定逐步回归法是一种有进有出的双向筛选方法虽然能够保证进入方程的每一个自变量具有统计学意义,并可以将一些退化的不显著的自变量从方程中剔除,但是没有全面考虑不同自变量间的组合作用,得到的只是一个局部最优的回归方程条件 logistic 回归主要用于哪种类型的资料?主要用于配对资料分析在流行病学的病例—对照研究中,为了控制一些重要的混杂因素,常把病例和对照按照年龄、性别等条件进行配对,形成多个匹配组从原理上讲各匹配组的病例数和对照人是任意的,但最常用的是每组中有一个病例和若干个对照,即1:M 配对研究(一般 M 小于等于 3) .综合评价法的步骤 :综合评价实质上就是一个科学研究与决策的过程,原则上包括设计、手机资料、整理资料和分析资料几个基本阶段,但是在实施中应该注意以下几个环节:1;根据评价目标选择合适的评价指标,考察各指标的内在联系,选择那些主要的能反映事物本质的评价指标。
2 跟你据评价目的,确定诸评价指标在对某事物的评价中的相对重要性或者个指标的权重3;合理确定各个指标的评价等级及其界限4;根据评价目的,数据特征,选择适合的综合评价方法,并根据已掌握的历史资料,建立综合评价模型,计算综合指标 5;确定综合指标的登记数量界限,在对同类事物综合评价的应用实践中,对选用的评价模型进行考察,并不断修改补充,使之具有一定的科学性、实用性与先进性,然后推广应用TOPSIS 法步骤 :TOPSIS 意为与理想方案相似性的顺序选优技术,是系统工程中有限方案多目标决策分析的一种常用方法,可用于效率评价、卫生决策和卫生事业管理等多个领域步骤:1 综合评价中,有些是高优指标,有些是低优指标,首先要求所以指标的变化方向一致2,同趋势化后的原始数据矩阵进行归一化处理, 并建立相应矩阵 3 据矩阵得到最优值向量和最劣值向量4 分别计算诸评价对象与最优方案及最劣方案的距离 5计算诸评价对象与最优方案的接近程度6 按接近程度的大小将各评价对象排序,接近程度越大,表示综合效应越好7 依接近程度对各评价对象进行排序秩和比法( RSR )步骤 :其基本思想是,在一个N 行 M 列的矩阵中,通过秩转换获得无量纲统计量RSR,在此基础上运用参数统计分析的概念与方法,研究RSR 的分布,以RSR 值对评价对象的优劣直接排序或分档排序。
该方法已广泛引用与医疗卫生领域的多指标综合评价、统计预测预报、统计质量控制等方面基本步骤: 1 列原始数据表,将N 个评价对象的M 个评价指标排成N 行 M 列的原始数据表 2 编秩,编出每个指标各对象的秩,其中高优指标从小到大编秩,低优指标从大到小编秩,同一指标数值相同者编平均秩 3 计算秩和比,根据 RSR 值对评价对象的优劣进行直接排序4 确定 RSR 的分布,用概率单位probit表达的 RSR 值特定的向下累计频率 5 计算回归方程 6,分档排序, 根据 RSR 值对评价对象进行分档排序RSR 法的注意事项 : 1 同趋势化其中高伏指标从小到大编秩,低伏指标从大到小编秩,同一指标数值相同者编平均秩 2当评价对象是总体时,不需要做假设检验,而计算回归方程时,若评价对象不是总体,则应做假设检验3 应根据评价母的选择评价指标,选择那些主要能反映事物本质的评价指标,这些指标应当明确、具体、可行、可靠4 根据评价目的,确定评价指标对事物评价的相对重要性,或指标的权重5 合理确定各个单位指标的评价等级界限6 根据评价目的、数据特征选择评价方法,建立评价模型7 确定综合指标的数量界限。
在应用实践中,对选用的评价模型进行考核,使之具有一定的科学性、实用性和先进性判别分析中应该注意的问题?1,判别分析中所用的样本资料视为总体的估计,所用要求样本足够大,有较好的代表性,样本的原始分类必须准确无误,否则得不到可靠的判别函数判别指标的选择要适当,但不在于多,必要时要对判别之别进行筛选 2,各类型先验概率可以由训练样本中各类的构成比做估计值此时要注意样本构成比是否具有代表性,如果取样存在选择性偏倚,就不能用构成比来估计先验概率,不如把各类型的发生视为等概率时间,先验概率取 1/g 更为妥当 3,判别函数的判别能力不能只由训练样本的回代情况得出结论小样本资料建立的判别函数回代时可能有很低误判率,但训练样本以外的样本误判率不一定低,因此要预留足够的验证样品以考察判别函数的判别能力 4,判别函数建立后,可在判别应用中不断积累新的资料,不断进行修正,逐步完善遇到失意伤心事,多想有一个懂你的人来指点迷津,因他懂你,会以我心,换你心,站在你的位置上思虑,为你排优解难一个人,来这世间,必须懂得一些人情事理,才能不断成长就像躬耕于陇亩的农人,必须懂得土地与种子的情怀,才能有所收获一个女子,一生所求,莫过于找到一个懂她的人,执手白头,相伴终老。
即使芦花暖鞋,菊花枕头,也觉温暖;即使粗食布衣,陋室简静,也觉舒适,一句 “懂你 ”,叫人无怨无悔,愿以自己的一生来交付懂得是彼此的欣赏,是灵魂的轻唤,是惺惺相惜,是爱,是暖,是彼此的融化;是走一段很远的路,蓦然回首却发现,我依然在你的视线里;是回眸相视一笑的无言;是一条偏僻幽静的小路,不显山,不露水,路边长满你喜爱的花草,静默无语却馨香盈怀,而路的尽头,便是通达你心灵的小屋 ⋯⋯瑟瑟严冬,窗外雪飘,絮絮自语说了这多,你可懂我了吗?若你知晓,无需说话,只报一声心灵的轻叹,那,便是我的花开春暖你相不相信,人生有一种念想,不求奢华不求结果,不求你在我身边,只愿有一种陪伴暖在心灵,那,便是懂得有人懂得是一种幸福,懂得别人是一种襟怀,互为懂得是一种境界懂得,真好!。




