差异量数
对于一组数据资料,如果只通过求其集中量数,了解它的集中趋势,这并不能准确反映该体的全貌。因为平均数相同的不同体,在很多情况下,可能存在着较大的差异。例如,我们现在给出甲、乙、丙三组数据资料,每组都是5个数据,并且具有相同的平均值。
甲:56,66,76,86,96平均值为76
乙:70,72,76,80,82平均值为76
丙:66,71,76,81,86平均值为76
观察上面三组数据,我们可以发现,尽管三组的集中量数相同,但它们的离散程度明显存在着差异。乙组最集中,丙组居中,甲组最分散。如果用“全距”这一最简单的描述差异情况的量数来做比较,可以看出:
组别 | 最大值——最小值 | 全距 |
甲 乙 丙 | 56——96 70——82 66——86 | 40 12 20 |
甲组差异量数最大,说明各数据值分散范围广并且参差不齐。
乙组差异量数最小,说明各数据值最集中、整齐。
丙组差异量数居中。
由此可知,为了客观认识数据资料的全貌,做出科学的判断,在比较各组数据资料平均值的同时,还要考虑其差异情况,只有这样,才能更准确可靠地掌握数据资料的全貌。
差异量数是代表一组数据变异程度或离散程度的量数。它反映了数据分布的离中趋势,即分化的程度。差异量数大,表示各数值分散的范围甚广且参差不齐;差异量数小,表示各数值甚为集中、整齐,其变动的范围小。
要想了解集中量数的代表性如何,可通过差异量数来进行判断。差异量数愈大,则集中量数的代表性愈小;差异量数愈小,则集中量数的代表性愈大。集中量数在量尺上反映为一个点,差异量数在量尺上反映为一段距离。只有很好地发挥二者的功能,才能对数据分布的全貌有一个比较明晰的了解。
差异量数大致分为绝对差异量数、相对差异量数和相对位置量数三类。绝对差异量数是反映一组数据离中趋势并以数据单位为单位的统计量,具体包括全距、平均差和标准差等。相对差异量数是一个比率值,不以数据单位为单位,它通常被用于比较两种测量单位不同的数据资料的差异情况,具体有差异系数等。相对位置量数主要反映一个量数在其总体中所处的位置,从而便于比较不同量数在不同总体中所处的位置,它包括百分等级和标准分等。现分别进行简要介绍。
一.对差异量数
(一)全距
在本章第一节有关次数分布表编制的内容中,已经提到了全距。不过在本节中应该对全距有一个更加全面的认识。
1. 全距的概念
全距又称两极差,代表符号为R.。全距是指全部数据中的最大值与最小值之差。从其概念中可看出,全距是以自身的长短来表明数据分散情况的,全距差大则说明数据分布得比较分散,
它的意义很明确,是表示数据分布离散程度的十分简单和容易计算的一种差异量数。
2. 全距的计算方法
全距的计算公式为:
R=max(X)—min(X)
式中:R为全距,max(X)、min(X)分别为数据中的最大值和最小值。
对于原始数据或已编成简单次数分布表的数据,可直接出其最大值和最小值并相减,所得之差就是全距。如数距3,5,6,8,13,16,20的全距R=20—3=17。
当面对次数分布表求全距时,只需用最大一组的组中值减最小一组的组中值,所得之差即为全距。例如表10—10中,最大一组为90——100,组中值为95;最小一组为50——60,组中值为55。因此,全距R=95—55=40。
3. 关于全距
标准差怎么算
全距的意义简明,计算简单,但由于它是依据最大值和最小值计算得来,只能体现一组数据的两极端数据之间的离散程度,不能反映中间数据的差异,受两极端数据的影响很大。例如,数距44,57,59,67,67,68,74和数据44,72,72,72,72,72,74,虽然两组数据的全距都是30,但它们的离散程度却差异很大。因此,全距对数据分布的差异状况描述得很粗略,并没有提供多少数据分布内部变异情况的信息,只能作为差异量数的辅助指标。
(二)平均差
我们知道全距的计算不是利用所有的数据,所以不能说明全部数据的分散程度。而平均差就避免了这一缺陷。
1. 平均差的概念
所谓平均差,就是指一组数据中的各个数据与该组数据的平均数(或中位数)离差的绝对值的算术平均数。如果用各数据与其平均数之差作为离差来计算平均差,就用AD表示平均差;如果用各数据与其中位数之差作为离差来计算平均差,则用MD表示平均差。即:
AD= (公式10—8a)
(公式10—8b)
式中:AD和MD为平均差,为平均数,为中位数,X为数据,N为数据的总个数。
2. 平均差的计算方法
①原始数据计算平均差的方法
对于未经整理分组的原始数据,可利用(公式10—8a)或(公式10—8b)来计算平均差。
例1,设有学生8人参加某次竞赛,个人所得分数如表10—14所示,平均分=80.25分,试求其平均差。
表10—14原始数据求平均差示例
分数(X) | 离差 | 计算方法 |
87 90 68 77 83 92 61 84 | 6.75 9.75 12.25 3.25 2.75 11.75 19.25 3.75 | N=8,平均分=80.25 69.5,代入(公式10—8a): |
②根据次数分布表计算平均差的方法
对于已分组的数据,可用组中值来代替各组的数据。计算公式为:
(公式10—9)
式中:为组中值,为次数。
例2,已知144名成人体重的次数分布表如下,求其平均差。
(1)求平均数
表10—15利用次数分布表求平均差示例
体重(公斤) | ||||
65——69 60——64 55——59 50——54 45——49 40——44 | 67 62 57 52 47 42 | 3 6 42 58 30 5 | 14.2 92. 4.2 0.8 5.8 10.8 | 42.6 55.2 176.4 46.4 174 54 |
548.6 | ||||
(2)求各组组中值与平均数之差的绝对值,即。
(3)用各组次数分别乘,求出。=548.6
(4)代入(公式10—9),求出平均差。
3.关于平均差
平均差是用离差的绝对值来进行运算的。因为从描述数据分布的离散程度这一观点来看,无论是正离差(数据高于平均数或中位数),还是负离差(数据低于平均数或中位数),都表示与集中量数(平均数或中位数)有差异,所以应取绝对值。因为如果不取绝对值,那么,由于平均数的一个性质是数据与平均数之差的代数和为零,我们将无法计算下去,也将无法描述数据之间的差异状态。
(三)标准差
由于平均差的计算必须依靠绝对值的存在,这导致平均差的用途大受限制。为克服平均差的缺点,统计学家们研究出了一种比较理想的差异量数——标准差。
发布评论