如何理解统计学中的“小概率原理”?
朱继民 博士
统计学是一门处理数据的收集、整理与分析的艺术,是指导人们如何对科学探索活动进行严密地设计、获取可靠的数据、正确地归纳分析与推理判断的科学。医学统计学在医学研究中帮助揭示疾病或现象发生、发展规律,为预防疾病、促进健康提供客观依据。
学过统计学的同学多有这样的体会:刚刚开始的前前几节课感觉很轻松,可是学着学着就开始犯糊涂了,晕车现象较为严重。原因在哪里呢?许多人给出的答案是数学基础差,而我却认为症结不在这里。统计学的概念与统计思维较为抽象,不易理解;方法丰富、适用范围与对数据的要求不尽相同,掌握起来困难,实际应用时常有无从下手的困惑;统计学内容的连贯性很强,环环相扣,而且前一环恰是下一环的基础;如果中间环节脱落,对后面内容的学习往往会有超出想象的影响。
现从统计学中的一个概念谈谈如何理解统计学的概念,并从应用层面看其与其他知识点的融合。
概率是统计学的一个重要的基本概念,它反映事件或现象发生可能性的大小,用P表示;当P=1时,表示肯定发生,即为必然事件,P=0时,肯定不会发生,即为不可能事件,P介于0与1之间,可能发生也可能不发生,即为随机事件。统计学重点关注的是随机事件在一次试验中发生的概率。掷币的结果有两种可能,要么正面朝上,要么反面朝上,概率均为0.5;如果只进行一次掷币试验,那么在掷币前我们无法确定掷币的结果到底是哪种情况,即朝上的面是正还是反。掷币的结果就是一种随机事件。
小概率事件即发生概率很小的事件(通常指P≤0.05或0.01)在统计学中有着重要的应用。对于小概率事件,很容易理解;即这样的事件理论上可以发生但发生的概率较小,在一次试验中发生的可能性则几乎为零。如买中大奖就是典型的小概率事件。也许每一期均会有大奖开出(概率超低),但对于某一个彩民来说他买一注就中大奖的可能性(小概率事件在一次试验中就发生的概率)几乎没有。其实这就是小概率事件在统计学上应用的重要理论依据——小概率原理,即小概率事件在一次试验中发生的可能性很小,如果真的发生了,统计学则怀疑其真实性。统计学依据小概率原理作出结论的正确性很高,但也存在犯错误的风险(较低)。现以一个例子来看统计学是如何对待小概率事件的:不透明箱子里装有大小、形状、质地均相同的小球100个,其中白球95个,红球5个。现在如果由某个人从该箱子中
摸球,每次只允许摸1个球;那么,在球被摸出之前,我们知道白球和红球均有被摸到的可能,只是被摸到的概率不同,分别是0.95和0.05。在试验中,如果摸到的是白球,统计学会承认球是从该箱子中摸出的;如果摸到的是红球,统计学则否认球是从该箱子中摸出的。统计学这样判定结果的依据就是小概率事件在一次试验中发生的可能性几乎不存在,这样判定结果的正确性理论上可高达95%,但也会犯错误(弃真错误),犯错的概率为5%。
江歌案是怎么发生的 其实,小概率原理在统计上的有非常重要的应用,如假设检验结果的判断。假设检验是用样本信息推测总体的一种统计推断方法。由于抽样误差的存在,样本信息和总体特征间可能不尽相同,所以假设检验实际上就是判断待比较各方的差别是否事由抽样误差造成的;假设检验中P值的大小反映的就是差别由抽样误差造成的概率。在假设检验中就是通过比较P值与检验水准a(通常设为0.05)的大小关系,从而作出差别有无统计学意义。如果P值小于a,统计学则认为差别由抽样误差造成的概率很低;那么根据小概率原理认为:小概率事件在一次抽样中就发生的可能性几乎为零,所以判定差别可能是由待比较各方在本质上不同导致的。如果P值大于a,统计学则认为差别是由抽样误差造成的。在这里,检验水准a是在假设检验前人为设定的,是研究者能够承受的本次假设检验犯弃真错误的概率;也可以理解为是研究者设立的小概率事件的概率。而P值则是通过计算,即在检验假设H0成立的情况下,差
别由抽样误差造成的概率。
实例:某地随机抽取正常男性264名,测得空腹血中胆固醇浓度的均数为4.404mmol/L,标准差为1.169mmol/L;随机抽取正常女性160名,测得空腹血中胆固醇浓度的均数为4.288mmol/L,标准差为1.106mmol/L,问男、女胆固醇浓度有无差别?
分析:由于正常人太多,这里的264和160只是众多正常人中的一小部分,即样本;而我们的任务却是要依据样本的信息(空腹血中胆固醇浓度)推测所有人的空腹血中胆固醇浓度情况,比较男、女胆固醇浓度有无差别。怎么办?可能有人说,男的4.404mmol/L,女的4.288mmol/L,很显然是男的高于女的!如果这位没学过统计,那就情有可原;但如果学过,那你就不该讲这样的外行话了。正确的做法是进行假设检验:若设检验水准为0.05,根据上述数据实际计算得到的P值大于0.05,说明:我们尚不能认为男、女胆固醇浓度的差别有统计学意义,即4.404和4.288的差别很可能是抽样误差造成的。
可见,小概率原理从字面上看很容易理解,但要做到活用还是要下不少功夫的。真正理解并明白它在统计学上的应用,对统计学的学习大有裨益。
发布评论