在做社会科学研究的时候,调查是必不可少的一个环节。我们做一个调查,花费了大量的人力、物力,得到了大量的一手数据,然而,如果我们在做数据分析的时候采取的方法不科学的话,可能会导致分析结果与真实情况存在偏差,甚至得到相反的结果。
举个简单的例子,某政府关于某个项目出台了A、B两套拟案,分别在甲、乙两个地区做民意调查,调查的数据统计如下表1所示:
甲地区 | 乙地区 | |||
满意 | 不满意 | 满意 | 不满意 | |
拟案A | 164 | 386 | 1125 | 1128 |
拟案B | 57 | 234 | 12752 | 14385 |
表1 两套拟案的满意度数据
根据这个统计结果,哪个方案更让人们满意呢?我们来做个简单的分析。
我们计算出两个地区对A、B方案的满意度,如表2 所示:
甲地区 | 乙地区 | |
拟案A | 29.8% | 49.9% |
拟案B | 19.6% | 47.0% |
表2 满意度情况
由满意度可以看出,无论是在甲地区还是在乙地区,方案A的满意度更高。
但是,如果我们不分地区的话,将数据合并起来分析,那么A方案在人们中的满意度为46.0%,B方案的满意度为46.7%,那么我们又可以看出,方案B的满意度更高。
两种分析方案,得到的却是两种截然不同的结果,那么,究竟哪种分析方法更合理呢?为什么会得到两种不同的结果呢?
在统计学里面对数据源的要求提到的一点就是“数据规模要大”。那么,我们这个调查的数据是否太小了?假设真的是数据太小了,那么,我们将这些数据都等比例扩大,由数学知识可以知道,结果还是跟上面的结果一样的,也就是说,跟数据的大小没有关系了。
仔细分析,我们就可以看出问题所在了,对数据的采集不科学,我们在采集数据的时候对样本的抽取不科学,从表我们可以看出,无论是在甲地区还是乙地区,对A、B方案进行调查的人数差距太大,这违背了统计学的原理。所以统计出来的结果也是没有太大的意义的。
再举另外的一个例子,某小区对所有的200名住户进行了上网情况的调查,数据如下表3所示:
上网时间(h) | 0 | (0,1] | (1,2] | (2,3] | (3,4] | (4,5] | (5,6] | (6,7] | (7,24) |
人数 | 40 | 20 | 30 | 32 | 24 | 16 | 10 | 10 | 18 |
表3 上网时间统计
显而易见,不上网的人数占的比例最大。但是,我们换另外的一种方式进行分析,如表4所示:
类型 | 不上网 | 少量上网 | 适量上网 | 大量上网 |
上网时间 | 0 | (0,3] | (3,6] | (6,24) |
人数 | 40 | 82 | 50 | 28 |
表4 上网时间统计2
由这个表可以看出,少量上网的人数占的比例又是最大的。对于这个结果,又该如何解释呢?显然,这个不是取样的问题了。
我们可以看到,我们对一个类型进行定义的时候,是否考虑到合理性。对于表3的结论,当我们下“不上网的人数占的比例最大”的结论的时候,我们是把上网时间以小时为区间分开。对于结论“不上网的人数占的比例最大”的逆否结论就是“所占的比例最小的是上网的”,由数学知识可以知道它的逆否结论也是真的。但实际上上网的人所占的比例是最大的。
我们将表3的数据绘制成折线图:
根据上网时间-人数折线图,人数随上网时间的增加的变化情况一目了然。综合以上两个分析结果,我们是否觉得得出这样的结果更合理一点:上网时间在3小时以为的人数占的比例最大。
由上面两个例子我们可以看出,对于一个调查结果的数据分析,想要得到一个比较科的结果,我们需要满足两个条件:
1.对数据源的采集,我们要保证符合统计学原理,特别是抽样调查的时候,对样本的布置要均匀、合理。
2.对数据的分析时,对分类的定义要合适。采用分类汇总统计时,分类的区间要合理。
发布评论