如何做好统计结果分析
 
  在做社会科学研究的时候,调查是必不可少的一个环节。我们做一个调查,花费了大量的人力、物力,得到了大量的一手数据,然而,如果我们在做数据分析的时候采取的方法不科学的话,可能会导致分析结果与真实情况存在偏差,甚至得到相反的结果。
  举个简单的例子,某政府关于某个项目出台了A、B两套拟案,分别在甲、乙两个地区做民意调查,调查的数据统计如下表1所示:
甲地区
乙地区
满意
不满意
满意
不满意
拟案A
164
386
1125
1128
拟案B
57
234
12752
14385
表1 两套拟案的满意度数据
    根据这个统计结果,哪个方案更让人们满意呢?我们来做个简单的分析。
    我们计算出两个地区对A、B方案的满意度,如表2 所示:
甲地区
乙地区
拟案A
29.8%
49.9%
拟案B
19.6%
47.0%
表2 满意度情况
   
    由满意度可以看出,无论是在甲地区还是在乙地区,方案A的满意度更高。
    但是,如果我们不分地区的话,将数据合并起来分析,那么A方案在人们中的满意度为46.0%,B方案的满意度为46.7%,那么我们又可以看出,方案B的满意度更高。
    两种分析方案,得到的却是两种截然不同的结果,那么,究竟哪种分析方法更合理呢?为什么会得到两种不同的结果呢?
    在统计学里面对数据源的要求提到的一点就是“数据规模要大”。那么,我们这个调查的数据是否太小了?假设真的是数据太小了,那么,我们将这些数据都等比例扩大,由数学知识可以知道,结果还是跟上面的结果一样的,也就是说,跟数据的大小没有关系了。
    仔细分析,我们就可以看出问题所在了,对数据的采集不科学,我们在采集数据的时候对样本的抽取不科学,从表我们可以看出,无论是在甲地区还是乙地区,对A、B方案进行调查的人数差距太大,这违背了统计学的原理。所以统计出来的结果也是没有太大的意义的。
    再举另外的一个例子,某小区对所有的200名住户进行了上网情况的调查,数据如下表3所示:
上网时间(h)
0
(0,1]
(1,2]
(2,3]
(3,4]
(4,5]
(5,6]
(6,7]
(7,24)
人数
40
20
30
32
24
16
10
10
18
表3 上网时间统计
    显而易见,不上网的人数占的比例最大。但是,我们换另外的一种方式进行分析,如表4所示:
类型
不上网
少量上网
适量上网
大量上网
上网时间
0
(0,3]
(3,6]
(6,24)
人数
40
82
50
28
表4 上网时间统计2
    由这个表可以看出,少量上网的人数占的比例又是最大的。对于这个结果,又该如何解释呢?显然,这个不是取样的问题了。
    我们可以看到,我们对一个类型进行定义的时候,是否考虑到合理性。对于表3的结论,当我们下“不上网的人数占的比例最大”的结论的时候,我们是把上网时间以小时为区间分开。对于结论“不上网的人数占的比例最大”的逆否结论就是“所占的比例最小的是上网的”,由数学知识可以知道它的逆否结论也是真的。但实际上上网的人所占的比例是最大的。
    我们将表3的数据绘制成折线图:
怎么做数据分析
    根据上网时间-人数折线图,人数随上网时间的增加的变化情况一目了然。综合以上两个分析结果,我们是否觉得得出这样的结果更合理一点:上网时间在3小时以为的人数占的比例最大。
   
    由上面两个例子我们可以看出,对于一个调查结果的数据分析,想要得到一个比较科的结果,我们需要满足两个条件:
    1.对数据源的采集,我们要保证符合统计学原理,特别是抽样调查的时候,对样本的布置要均匀、合理。
    2.对数据的分析时,对分类的定义要合适。采用分类汇总统计时,分类的区间要合理。