当前位置首页 > 医药卫生 > 基础医学
搜柄,搜必应! 快速导航 | 使用教程  [会员中心]

从数据到结论人民大学吴喜之教授引言S

文档格式:PPT| 49 页|大小 1.26MB|积分 10|2022-09-26 发布|文档ID:156341630
第1页
下载文档到电脑,查找使用更方便 还剩页未读,继续阅读>>
1 / 49
此文档下载收益归作者所有 下载文档
  • 版权提示
  • 文本预览
  • 常见问题
  • 第一章第一章 引言引言 统计漫谈统计漫谈本章内容 一、什么是统计?一、什么是统计?二二 中国统计的独特历史环境中国统计的独特历史环境 三三 统计的内容和需要的知识统计的内容和需要的知识 四四 数据和模型的关系数据和模型的关系 五五 统计统计 思维思维 六六 简单的数理统计例子简单的数理统计例子一、什么是统计?一、什么是统计?1 统计的定义统计的定义用以收集用以收集数据数据、分析、分析数据数据和由和由数据数据得出结得出结论的一组概念、原则论的一组概念、原则和方法和方法.2 2 什么地方统计用得上呢?什么地方统计用得上呢?任何领域任何领域.运用统计的领域包括运用统计的领域包括(1)精算精算 农业农业 动物学动物学 人类学人类学 考古学考古学 审计学审计学 晶体学晶体学 人口统计学人口统计学 牙医学牙医学 生态学生态学 经济计量学经济计量学 教育学教育学 选举预测和策划选举预测和策划 工程工程 流行病学流行病学 金融金融 水产渔业研究水产渔业研究 遗传学遗传学 地理学地理学 地质学地质学 历史研究历史研究 人类遗传学人类遗传学 水文学水文学 工业工业 法律法律 语言学语言学 文学文学 劳动力计划劳动力计划 管理科学管理科学 市场营销学市场营销学 医学诊断医学诊断 气象学气象学 军事科学军事科学 核材料安全管理核材料安全管理 眼科学眼科学 制药学制药学 物理学物理学 政治学政治学 心理学心理学 心理物理学心理物理学 质量控制质量控制 宗教研究宗教研究 社会学社会学 调查抽样调查抽样 分类学分类学 气象改善气象改善 搏采,等等搏采,等等.统计历史人物统计历史人物 Edmond Halley(哈雷哈雷)(1656-1742)Leonhard Euler(欧拉欧拉)(1707-1783)Thomas Robert Malthus(马尔萨斯马尔萨斯)(1766-1834)Ronald Aylmer Fisher(费歇费歇)(1890-1962),Moivre(棣美佛棣美佛)(1667-1754)Pierre Simon Laplace(拉普拉斯拉普拉斯)(1749-1827)Jacob Bernoulli(伯努利伯努利)(1654-1705)Thomas Bayes(贝叶斯贝叶斯)(1702-1761),Adrien Marie Legendre(勒让德勒让德)(1752-1833)Friedrich Gauss(高斯高斯)(1777-1855)Johann Gregor Mendel(孟德尔孟德尔)(1822-1884)Karl Pearson(皮尔森皮尔森)(1857-1936)William Feller(费勒费勒)(1906-1970).Jerzy Neyman(1894-1981)Egon Sharpe Pearson(1895-1980)3 3 你想过下面的问题吗?你想过下面的问题吗?当你买了一台电视时,被告知三年内可以免当你买了一台电视时,被告知三年内可以免费保修。

    你想过厂家凭什么这样说吗?说多费保修你想过厂家凭什么这样说吗?说多了,厂家会损失;说少了,会失去竞争,也了,厂家会损失;说少了,会失去竞争,也是损失到底这个保修期是怎样决定的呢?是损失到底这个保修期是怎样决定的呢?在同一年级中,同样统计学的课程可能由一在同一年级中,同样统计学的课程可能由一些不同教师讲授教师讲课方式当然不一样,些不同教师讲授教师讲课方式当然不一样,考试题目也不一定相同那么如何比较不同考试题目也不一定相同那么如何比较不同班级的统计学成绩呢?班级的统计学成绩呢?大学排名是一个非常敏感的问题不同的机大学排名是一个非常敏感的问题不同的机构得出不同的结果;各自都说自己是客观、构得出不同的结果;各自都说自己是客观、公正和有道理的到底如何理解这些不同的公正和有道理的到底如何理解这些不同的结果呢?结果呢?任何公司都有一个信用问题当然,在这任何公司都有一个信用问题当然,在这些公司试图得到贷款时并没有不还贷的不些公司试图得到贷款时并没有不还贷的不良记录如何根据它们的财务和商业资料良记录如何根据它们的财务和商业资料来判断一个公司的信用等级呢?来判断一个公司的信用等级呢?我国东部和西部的概念是一个比较笼统的我国东部和西部的概念是一个比较笼统的概念。

    如何能够根据需要,选择一些指标概念如何能够根据需要,选择一些指标来把各省,或各市县甚至村进行分类呢?来把各省,或各市县甚至村进行分类呢?疾病传播时,如何能够通过感染者入院前疾病传播时,如何能够通过感染者入院前后的各种因素得到一个疾病传染方式的模后的各种因素得到一个疾病传染方式的模型呢?型呢?如何通过大众调查来得到性别、年龄、如何通过大众调查来得到性别、年龄、职业、收入等各种因素与公众对某项事职业、收入等各种因素与公众对某项事物(比如商品或政策)的态度的关系呢?物(比如商品或政策)的态度的关系呢?一个从来没有研究过红楼梦的统计学家一个从来没有研究过红楼梦的统计学家如何根据比较写作习惯得出红楼梦从哪如何根据比较写作习惯得出红楼梦从哪一段开始就不是曹雪芹的手笔了呢?一段开始就不是曹雪芹的手笔了呢?如何才能够客观地得到某个电视节目的如何才能够客观地得到某个电视节目的收视率,以确定广告的价格是否合理呢?收视率,以确定广告的价格是否合理呢?4 你如何理解下面说法?你如何理解下面说法?“明天降水概率为明天降水概率为4040”“我冬天去新加坡度假的概率为我冬天去新加坡度假的概率为1010”“该节目收视率是该节目收视率是30%30%”“调查结果表明调查结果表明20%20%的观众喜欢某节目的观众喜欢某节目”“抽样调查结果的误差为抽样调查结果的误差为3%3%”“支持率的支持率的9595置信区间为置信区间为(25%,30%)(25%,30%)”“某学校排名第一某学校排名第一”“某县是贫困县某县是贫困县”5 你如何理解下面说法?你如何理解下面说法?“某国的综合竞争力排名第某国的综合竞争力排名第4343位位”“该国家属于发展中国家该国家属于发展中国家”“该药品疗效该药品疗效99%99%”“该国贫富差距大该国贫富差距大”“这个县收入比那个县高这个县收入比那个县高”“该结果统计显著该结果统计显著”“消费价格指数为消费价格指数为120%120%”“他的血压已经正常了他的血压已经正常了”6 你相信统计结果吗?你相信统计结果吗?数据可以有误或作假数据可以有误或作假统计方法(有意或无意)使统计方法(有意或无意)使用不当可以误导。

    有低级误用不当可以误导有低级误导和高级误导导和高级误导常识判断和直觉是重要的常识判断和直觉是重要的关于美国选举的两个例子关于美国选举的两个例子(1)谁会在谁会在1936选举中获胜选举中获胜?Alf London还还是是 F.D.R.(罗斯福罗斯福)?Literary Digest(文摘文摘)送出一千万份问送出一千万份问卷卷(返回二百四十万份返回二百四十万份)后后,预测预测London 会赢会赢.而而Gallop(盖洛普盖洛普)只问了只问了5000人说人说 Roosevelt(罗斯福罗斯福)会赢会赢.最后罗斯福和盖洛普都赢了最后罗斯福和盖洛普都赢了.文摘文摘倒闭倒闭了了.谁会在谁会在1948选举中获胜选举中获胜?Thomas Dewey还是还是Harry Truman(杜鲁门杜鲁门)?Crossley,Gallop(盖洛普盖洛普),Roper所所有都有都预测预测Dewey 会赢会赢(每个机构用了每个机构用了5000个问卷个问卷).最后最后(包括盖洛普包括盖洛普)他们都输了他们都输了,而杜鲁而杜鲁门赢了门赢了.关于美国选举的两个例子关于美国选举的两个例子(2)7 统计的一些做法统计的一些做法 统计可以指导我们收集数据统计可以指导我们收集数据.当拥有来自一些变量当拥有来自一些变量(指标指标)的数据或记录的数据或记录,但缺乏模型来描述这些变量之间关系的情但缺乏模型来描述这些变量之间关系的情况下况下,可用统计方法建立模型可用统计方法建立模型.在有了一定的模型时在有了一定的模型时,统计可以确定手中数统计可以确定手中数据是否令人信服地支持某种论点据是否令人信服地支持某种论点.模型也用模型也用来对未来进行预测来对未来进行预测.统计直观的图表展示统计直观的图表展示,可以使各个领域的专可以使各个领域的专家容易理解家容易理解二二 中国统计的独特中国统计的独特历史环境历史环境中国统计过去分为中国统计过去分为“统计统计学学”(文科的列宁主义统计文科的列宁主义统计)和和“数理统计数理统计”(数学类的数学类的国际意义上的统计国际意义上的统计)国内一些学者把统计称为是国内一些学者把统计称为是经济学科的一部分,则是中经济学科的一部分,则是中国特有的与前苏联关联的国国特有的与前苏联关联的国情所造成情所造成这种经济学中的统计学的数这种经济学中的统计学的数学水平低于小学数学水平。

    学水平低于小学数学水平与现代经济学所需的大量的与现代经济学所需的大量的统计和数学形成鲜明对照统计和数学形成鲜明对照.前苏联式的前苏联式的“统计学统计学”目前即使在俄国也无人目前即使在俄国也无人问津问津但其八股形式在中国仍但其八股形式在中国仍然流行;而且存在于在然流行;而且存在于在官方的统一考试中官方的统一考试中2003年版的一本年版的一本统计学原统计学原理理说:说:统计学的理论基础统计学的理论基础是马列主义、毛泽东思想和是马列主义、毛泽东思想和邓小平理论邓小平理论(ISBN7-81029-073-8/C.22003-8-283232622.00)1998年的一本年的一本理论统计学理论统计学还说:还说:统计为无产阶级政治统计为无产阶级政治服务服务(ISBN7-5046-2407-1/C.68)三三 统计的内容和需要的知识统计的内容和需要的知识统计可能触及数学的几乎所有内容统计可能触及数学的几乎所有内容(你不一定事先知道需要什么你不一定事先知道需要什么)但每一个统计问题或者分支可能只但每一个统计问题或者分支可能只用数学的很小一部分用数学的很小一部分用计算机做统计计算用计算机做统计计算其他其他(对象对象)领域的知识(如生物医领域的知识(如生物医学、经济、行为、社会、金融等等)学、经济、行为、社会、金融等等)1 数学的重要性数学的重要性真正严格的逻辑真正严格的逻辑仅存在于数学之中,仅存在于数学之中,只能够从学习数学中获得。

    只能够从学习数学中获得哲学,(哲学,法律?)法律?)数学的逻辑服务于现代理性社会的所数学的逻辑服务于现代理性社会的所有方面例如法律)(例如法律)在一定的公理系统下,在一定的公理系统下,纯粹数学是唯纯粹数学是唯一可以说得出绝对是非的世界一可以说得出绝对是非的世界为什么人们对数学家的印象是为什么人们对数学家的印象是“呆呆”?(世界并不是完美的)(世界并不是完美的)2 统计和数学的区别统计和数学的区别数学思维是以演绎为主数学思维是以演绎为主统计思维是以归纳为主统计思维是以归纳为主,兼有兼有演绎演绎统计各领域利用几乎所有存统计各领域利用几乎所有存在的数学内容在的数学内容.但统计本身的数学是为具体但统计本身的数学是为具体目标服务的目标服务的,自己一般不形成自己一般不形成数学体系数学体系3 计算机的重要性计算机的重要性由于统计和数据打交道由于统计和数据打交道,没有没有计算机的发展统计就没有前计算机的发展统计就没有前途途.计算机和统计的发展相辅相计算机和统计的发展相辅相成成四四 数据和模型的关系数据和模型的关系 作为根据的数据作为根据的数据(比如各地人均比如各地人均GDP,各各种资源种资源,自然条件等和航空旅客人数自然条件等和航空旅客人数)基于数据建立模型基于数据建立模型(回归模型回归模型)模型用来指导未来模型用来指导未来,预测未来预测未来(某城市某城市GDP达到某水平达到某水平,是否需要建立或扩建是否需要建立或扩建机场等决策机场等决策)模型随时要根据新的数据来改进模型随时要根据新的数据来改进(新的新的飞机飞机,新的消费理念新的消费理念,新的旅游景点等新的旅游景点等)没有完美的模型没有完美的模型 没有无误差的数据没有无误差的数据五五 统计统计 思维思维类似于物理学,统类似于物理学,统计在否定中发展计在否定中发展统计的一个重要但又往统计的一个重要但又往往不易为人所理解的特往不易为人所理解的特点是统计从来不绝对地点是统计从来不绝对地说说“是是”或者或者“不是不是”。

    统计只能够说可能,而统计只能够说可能,而且往往提供某事可能发且往往提供某事可能发生的概率生的概率是非是人类是非是人类社会的产物社会的产物 大灰狼吃羊犯错误了吗?大灰狼吃羊犯错误了吗?人类社会之外的自然界有是非吗?人类社会之外的自然界有是非吗?人类社会的人类社会的“是非是非”是一成不变的吗?是一成不变的吗?统计只说可能性是实际世统计只说可能性是实际世界的真实体现真实世界界的真实体现真实世界充满了不确定性充满了不确定性从某种意义来说,生活中从某种意义来说,生活中唯一确定的事情就是其不唯一确定的事情就是其不确定性正是不确定性使得生活充正是不确定性使得生活充满了魅力和迷人的色彩满了魅力和迷人的色彩有多少人会享受其未来每有多少人会享受其未来每一时刻全部已经确定了的一时刻全部已经确定了的世界呢?世界呢?统计需要的是科学式的怀统计需要的是科学式的怀疑和发展的思维方式疑和发展的思维方式而不是顺从、盲从和服从而不是顺从、盲从和服从也不能用固定的眼光来看也不能用固定的眼光来看自己和世界自己和世界六六 简单的简单的数理统计例子数理统计例子 1 考试分数的考试分数的t-检验之例检验之例 假定有两个班级进行考试。

    假定有两个班级进行考试从第一个班抽取从第一个班抽取2个观测值的一个样本,个观测值的一个样本,分数为(数据分数为(数据1)(n=2):-100,-300分分(样本均值样本均值-200分分)从第二个班抽取从第二个班抽取10个观测值的样本,个观测值的样本,分数为(数据分数为(数据2)(n=10):100,100,100,100,100,100,99,99,99,99(样本均值(样本均值99.6分)分)哪个班平均成绩更接近哪个班平均成绩更接近100分?分?考试分数的考试分数的t-检验之例检验之例 H0:m m=100 对对 Ha:m m100(假定分数可以多于(假定分数可以多于100)数据数据1(n=2):-100,-300分分(样本均值样本均值-200分分)t=-3,df=1,p-value=0.1024 结论:在水平结论:在水平a a=0.1下下接受接受这这-100分和分和-300分所代分所代表的总体的均值为表的总体的均值为100的零假设的零假设(你同意吗?)数据数据2(n=10):100,100,100,100,100,100,99,99,99,99(样本均值(样本均值99.6分)分)t=-2.4495,df=9,p-value=0.0184 结论:在水平在水平a a=0.05下下拒绝拒绝由这六个由这六个100分四个分四个99分所代表的总体均值为分所代表的总体均值为100的零假设。

    的零假设假设检验的企图是否定零假假设检验的企图是否定零假设设(H0).何时能说何时能说“接受零假设接受零假设”?越学越糊涂吗?越学越糊涂吗?下面再看一个例子下面再看一个例子2 利用利用KS检验看数据检验看数据1、2、3、4、5是否为是否为正态正态、Poisson、均匀均匀或或指数分布指数分布(这是四个检验的这是四个检验的零假设零假设H0).后面是检验结果(后面是检验结果(SPSS输出输出)One-Sample Kolmogorov-Smirnov TestOne-Sample Kolmogorov-Smirnov Test53.00001.58114.136.136-.136.3051.000NMeanStd.DeviationNormal Parametersa,bAbsolutePositiveNegativeMost ExtremeDifferencesKolmogorov-Smirnov ZAsymp.Sig.(2-tailed)VAR00001Test distribution is Normal.a.Calculated from data.b.按照某些统计教科书,看来应该接受该数据有按照某些统计教科书,看来应该接受该数据有正态总体正态总体的零假设的零假设但是但是One-Sample Kolmogorov-Smirnov Test 3One-Sample Kolmogorov-Smirnov Test 353.0000.084.084-.050.1881.000NMeanPoisson Parametera,bAbsolutePositiveNegativeMost ExtremeDifferencesKolmogorov-Smirnov ZAsymp.Sig.(2-tailed)VAR00001Test distribution is Poisson.a.Calculated from data.b.按照某些统计教科书,看来按照某些统计教科书,看来还还应该接受该数据有应该接受该数据有Poisson总体总体的零的零假设。

    但是假设但是One-Sample Kolmogorov-Smirnov Test 4One-Sample Kolmogorov-Smirnov Test 453.0000.287.189-.287.641.806NMeanExponential parameter.a,bAbsolutePositiveNegativeMost ExtremeDifferencesKolmogorov-Smirnov ZAsymp.Sig.(2-tailed)VAR00001Test Distribution is Exponential.a.Calculated from data.b.按照某些统计教科书,看来按照某些统计教科书,看来还还应该接受该数据有应该接受该数据有指数分布总体指数分布总体的零的零假设但是假设但是One-Sample Kolmogorov-Smirnov Test 2One-Sample Kolmogorov-Smirnov Test 251.005.00.200.200-.200.447.988NMinimumMaximumUniform Parametersa,bAbsolutePositiveNegativeMost ExtremeDifferencesKolmogorov-Smirnov ZAsymp.Sig.(2-tailed)VAR00001Test distribution is Uniform.a.Calculated from data.b.按照某些统计教科书,看来按照某些统计教科书,看来还还应该接受该数据有应该接受该数据有均匀分布总体均匀分布总体的零的零假设。

    假设谁的也不听谁的也不听证据不足以拒绝任何一个零证据不足以拒绝任何一个零假设,但绝不意味着接受任假设,但绝不意味着接受任何一个(或所有的?!)何一个(或所有的?!)到底听哪一个?到底听哪一个?3 两个两个变量变量X和和Y的的相关检相关检验验(各有各有51个观个观测值测值),看来相看来相关关.Correlations1.000.877*.0005151.877*1.000.000.5151Pearson CorrelationSig.(2-tailed)NPearson CorrelationSig.(2-tailed)NXYXYCorrelation is significant at the 0.01 level(2-tailed).*.Correlations1.000.046.6325151.0461.000.632.51511.000.053.7115151.0531.000.711.5151Correlation CoefficientSig.(2-tailed)NCorrelation CoefficientSig.(2-tailed)NCorrelation CoefficientSig.(2-tailed)NCorrelation CoefficientSig.(2-tailed)NXYXYKendalls tau_bSpearmans rhoXYModel Summaryb.877a.769.7651.4403.769163.528149.0001.678Model1RR SquareAdjusted RSquareStd.Errorof theEstimateR SquareChangeF Changedf1df2Sig.FChangeChange StatisticsDurbin-WatsonPredictors:(Constant),Xa.Dependent Variable:Yb.ANOVAb339.2301339.230163.528.000a101.648492.074440.87850RegressionResidualTotalModel1Sum ofSquaresdfMeanSquareFSig.Predictors:(Constant),Xa.Dependent Variable:Yb.Coefficientsa-5.80E-02.204-.284.778-.469.353.877.069.87712.788.000.7391.0151.0001.000(Constant)XModel1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.LowerBoundUpperBound95%Confidence Intervalfor BToleranceVIFCollinearity StatisticsDependent Variable:Ya.X和和Y的回归的的回归的方差分析方差分析和和对斜率对斜率b b1的的t-检验检验(还有还有R2值等值等).看来显著看来显著.Normal P-P Plot of Regression Standardized ResidualDependent Variable:YObserved Cum Prob1.00.75.50.250.00Expected Cum Prob1.00.75.50.250.00Indexz$resi01020304050-2024查看正态性查看正态性:(PP图与残差图和图与残差图和Kolmogorov-Smirnov 检验检验:ks=0.098,p-value=0.5),未发现问题未发现问题.X3020100-10Y3020100-10但是实际数据的但是实际数据的X和和Y没有一点关系没有一点关系(一个点除外一个点除外)所有使得回归看上去所有使得回归看上去“合理合理”的根源就是这的根源就是这一个点一个点Indexdiag(x%*%solve(t(x)%*%x)%*%t(x)010203040500.00.20.40.60.8H=X(XX)-1X的对角线元素的对角线元素hi究竟是接受、拒绝、还是怀疑我们被灌输的东西?。

    点击阅读更多内容
    卖家[上传人]:无极剑圣
    资质:实名认证