概率与统计
专题四:独立性检验
一、知识储备
1.列联表
设,为两个变量,它们的取值分别为和,其样本频数列联表(列联表)如下:
总计 | |||
总计 | |||
2.独立性检验
利用随机变量(也可表示为)(其中为样本容量)来判断“两个变量有关系”的方法称为独立性检验.
3.独立性检验的一般步骤
(1)根据样本数据列出列联表;
(2)计算随机变量的观测值k,查下表确定临界值k0:
(3)如果,就推断“X与Y有关系”,这种推断犯错误的概率不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“X与Y有关系”.
【注意】(1)通常认为时,样本数据就没有充分的证据显示“X与Y有关系”.
(2)独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.
(3)独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.
二、例题讲解
1.(2022·榆林市第十中学高三月考(文))随着经济的发展,人们的生活水平显著提高,健康意识不断增强,健康管理理念深入人心,人们参加体育锻炼的次数与时间在逐渐增加.某校一个课外学习小组为研究居民参加体育锻炼的时长(时长不超过60分钟)是否与性别有关,对某小区居民进行调查,并随机抽取了100名居民的调查结果,其中男性有55人,根据调查结果绘制了居民日均锻炼时间的频率分布直方图如下:
(1)求样本中居民日均锻炼时间的中位数;
(2)将日均锻炼时间不低于40分钟的居民称为“健生达人”(健康生活达人),已知样本中“健生达人”中有10名女性,根据已知条件完成下面列联表,并据此资料判断是否有的把握认为“健生达人”与性别有关.
非健生达人 | 健生达人 | 合计 | |
男 | |||
女 | 10 | ||
合计 | 100 | ||
附:,.
0.10 | 0.05 | 0.01 | |
2.706 | 3.841 | 6.635 | |
2.(2022·江苏南京市·高三开学考试)科研小组为提高某种水果的果径,设计了一套实验方案,并在两片果园中进行对比实验.其中实验园采用实验方案,对照园未采用.实验周期结束后,分别在两片果园中各随机选取100个果实,按果径分成5组进行统计:,,,,(单位:).统计后分别制成如下的频率分布直方图,并规定果径达到36及以上的为“大果”.
(1)请根据题中信息完成下面的列联表,并判断是否有的把握认为“大果”与“采用实验方案”有关;
采用实验方案 | 未采用实验方案 | 合计 | |
大果 | |||
非大果 | |||
合计 | 100 | 100 | 200 |
(2)根据长期种植经验,可以认为对照园中的果径服从正态分布,其中近似为样本平均数,,请估计对照园中果径落在区间内的概率.(同一组中的数据以这组数据所在区间中点的值作代表)
附:①;
②若服从正态分布,则,,.
三、实战练习
1.(2022·定远县育才学校高三开学考试(文))是腾讯公司推出的一种手机通信软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在的朋友圈内销售商品的人.为了调查用户每天使用的时间,某经销化妆品的店家在一广场随机采访男性、女性用户各50名,将男性、女性平均每天使用的时间(单位:h)分成5组:分别加以统计,得到如图所示的频率分布直方图.
(1)根据频率分布直方图估计女性平均每天使用的时间;
(2)若每天玩超过的用户称为“控”,否则称为“非控”,判断是否有90%的把握认为“控”与性别有关.
附表:
0.15 | 0.10 | 0.05 | 0.025 | 0.010 | 0.005 | 0.001 | |
k | 2.072 | 2.706 | 3.841 | 5.024 | 6.635 | 7.879 | 10.828 |
(参考公式:,其中)
2.(2022·河北唐山·高三开学考试)数字人民币是由央行发行的法定,它由指定运营机构参与运营并向公众兑换,与纸钞和硬币等价.截至2022年6月30日,数字人民币试点场景已超132万个,覆盖生活缴费、餐饮服务、交通出行、购物消费、政务服务等领域.为了进一步了解普通大众对数字人民币的感知以及接受情况,某机构进行了-次问卷调查,部分结果如下:
学历 | 小学及以下 | 初中 | 高中 | 大学专科 | 大学本科 | 硕士研究生及以上 |
不了解数字人民币 | 35 | 35 | 80 | 55 | 64 | 6 |
了解数字人民币 | 40 | 60 | 150 | 110 | 140 | 25 |
(1)如果将高中及高中以下的学历称为“低学历”,大学专科及以上学历称为“高学历”,根据所给数据,完成下面的列联表;
发布评论