之间总存在着一定程度的相关关系。但作为评价指标体系,如果指标之间的相关性大,则会带来一系列问题。本文仅对统计指标相关性的后果,以及如何降低指标的相关程度进行探讨。一、指标相关性带来的问题设Y 为因变量,X 1与X 2为解释指标变量。当X 1与X 2不相关时,得模型为Y=b 1x 1+b 2x 2式中b 1、b 2分别表示解释指标变量对Y 的说明能力或作用程度,即边际值=9Y/9X 1=b 1,9Y/9X 2=b 2(假定b 1,b 2均大于0)。当X 1与X 2相关时,得模型为Y=c 1x 1+c 2x 2式中c 1(c 2)表示解释指标变量X 1(X 2)对Y 的说明能力和X 2(X 1)通过X 1(X 2)对Y 的说明能力之和,即9Y 9X 1=9(b 1x 1+b 2x 2)9X 1+9(b 1x 1+b 2x 2)9X 1@9X 19X 2=b 1(1+a 1)=c 1式中,X 1=a 1X 2,a 1>0。可见,c 1>b 1,即指标相关时,会夸大某些指标的作用程度。从信息角度看,信息相关势必存在信息重迭,造成信息的损失和浪费,以及指标解释的不真实性。如果把解释指标变量视为评价指标变量,因变量视为待评价
对象变量时,由于评价指标之间的相关夸大(或缩小)某些指标的评价作用,而使评价结果失去客观性。这是从评价指标与被评价对象的关系考虑的。如果我们换个角度,从各评价指标与评价指标体系整体关系去认识,若指标之间是相关的,则评价指标X i 与X j 样本分布相互间有影响,因此两者之间的变异系数之差会变小。而变异系数是指标鉴别能力的一种度量。这种相关性导致变异系数之差变小,最终表现为相关指标鉴别能力相对变小,即相关指标在统计指标体系整体中的功能下降。当指标体系中各指标之间均高度相
关时,各指标在指标体系整体中的功能(作用)会几乎相同,掩盖了各指标本身在指标体系整体中所具有的重要程度的差异性。这一分析告诉我们,通过指标的相关分析,剔除高度相关的指标,既提高了指标的评价功能,又简化了指标体系,同时增加了评价的客观性和真实性。二、降低指标相关性的方法
(一)相关系数法
指标的相关性只能通过样本的相关系数来估计,假设初选指标变量为X 1,X 2,,,X h ,样本数为n,设X ij 为样本i 的第j 个指标的观测值,原始指标资料数据矩阵为X=(X ij )h n ,然后进行同向归一化数据变换,得到数据矩阵Z=(Z i j )h no
计算两个指标间的简单相关系数r ij ,计算公式为:
r ij =E (Z ki -Z i )(Z kj -Z j )E (Z ki -Z i )2E (Z kj -Z j )删除评价
2 (i,j=1,2,,,h)。
5
#研究与探讨#
#研究与探讨#
式中Z j=1/n E Z ki(j=1,2,,,h)。
然后,规定一个临界值M,如果r ij>M,可去掉指标X i或X j,如果r ij<M,则X i与X j均保留。
(二)主成分分析法
假设经上述处理后得到的原指标变量为X1,X2,,,X p相互间仍存在着不同程度的相关性,可通过主成分分析法求得不相关的新变量y1,y2,,,y p,y j与原指标变量的关系是: y j=E L ij X i(j=1,2,,,P)
式中y j为第j个主成分。D(y j)=K j,Lj=(L1j,L2j,,,L pj)T为相关矩阵R的特征值K j所对应的单位特征向量,且有K1>K2,>K P>0。
当K P很小时,有max i{L i p}=L kp,且删除原指标变量X K,然后对原指标变量X1,X2,,, X K-1,X K+1,,,X P再进行主成分分析。重复上述步骤,最后得到简化了的原始指标集,设为X ={X1,X2,,,X L},既减弱了指标的相关性,又减少了指标的个数。
(三)因子分析法
原指标变量X1,X2,,,X p之间具有相关性,必须受到某些公共因子的控制,而指标变量取值差异的存在,又说明有特殊因子在起作用,因此,可建立因子模型X=A@F+E。式中X= (X1,X2,,,X p)T,F=(F1,F2,,,F
M)T为公共因子向量,E=(E1,E2,,,E p)T为特殊因子向量, A=(a ij)n m为因子载荷矩阵。如果因子F不能得到理想的解释,则采用方差最大正交旋转,使旋转后的A c阵每列元素向1或0趋近,得到估计模型X=A c@F c。a ij c越大,表明因子F j c与指标X i相关程度越强,因子控制作用越大,即因子较好地解释了该指标。若max i{a ij c}=a kj c,则说明公共因子F j c是由指标X K决定的。换言之,公共因子F j c有效地反映和代表了指标X K。这样m个公共因子代表的m个原指标变量就构成了筛选后的指标集。该指标集的指标个数减少了,相关程度也减弱了,达到了预期目的。
三、实例分析
本文以建立评价投资环境的指标体系为例进行分析。投资环境指标体系的建构,首先应根据有关经济理论与经济行为进行定性分析,选择那些与投资环境相关的指标,构成初选指标集。初选指标集至少要满足两个条件:一是指标要具有可观测性,即初选指标必须是可测量的,通过一定的统计程序,可得到指标数值;二是一致性,即评价指标必须与所反映的投资环境相一致。在应用指标体系对不同地区投资环境进行横向比较,或对同一地区不同时期投资环境进行纵向比较时要基本符合实际。通常人们在评价投资环境时的初选指标集包括:(1)人口(POP),(2)国内生产总值(GDP),(3)人均国内生产总值(GDPP),(4)第三产业产值(OTR), (5)第三产业产值比重(OTH R),(6)货运总量(T SF),(7)社会商品零售总额(RS),(8)消费物价指数(CPI),(9)人均工资(AS),(10)文盲率(WM)。其中人口和国内生产总值表示地区经济规模,人均值反映经济发展水平;第三产业产值和比重指标表示地区第三产业的发展水平和产业结构高度;货运总量代
表地区铁路、公路、海运和内河运输能力;社会商品零售总额代表地区的市场容量和消费规模;消费物价指数标志货币的稳定程度;人均工资和文盲率分别表示地区的劳动力价格和质量(鲁明泓:/中国不同地区投资环境的评估与比较05经济研究6,1994年第2期,第64)65页。)样本数据包括全国29个省、市、自治区(除台湾和西藏外)的1992年的数据,在此基础上作了如下处理。
º生活一点通用萝卜或马铃薯加少许细沙末擦洗菜刀,可除锈。
6
#研究与探讨#
1.简单相关分析法
求样本数据的指标简单相关系数,得相关矩阵为R。设临界值M=0.8,计算结果发现,社会商品零售总额与国内生产总值、第三产业产值和货运总量三个绝对量指标的相关系数分别为0.9897、0.96448和0.8288。由于相关程度均大于M值,故保留既表明市场容量和消费规模,又与三个重要的总量指标高度相关的统计指标社会商品零售总额,将其余三个指标删除,由剩下的7个指标构成评价投资环境的指标体系。由于这7个指标间仍存在着不同程度的相关关系,不够理想,所以还需进一步作主成分分析和因子分析的处理。
2.主成分分析法
利用7个指标29个地区的样本数据,进行主成分分析。相关阵R的最小特征值K7=0. 057,而K7的单位特征向量的最大分量所对应的变量为RS,故将社会商品零售总额删除。然后用剩下的6个指标的样本数据再一次进行主成分分析。相关阵的最小特征值K6=0.11987,而K6的单位特征向量的最大分量所对应的变量为GDPP,故将指标人均国内生产总值删除。对于剩下的5个指标又重复进行主成分分析,将指标第三产业产值比重删除。此时主成分筛选指标结束,因为再重复做下去,特征值已不是很小了,继续删除会导致信息不充分,或指标体系不完备。筛选后保留的指标有AS,POP,WM,CPI,即为较理想的评价指标集。
3.因子分析法
因子分析法还是利用上述主成分分析的样本数据进行的,通过对相关阵R的特征值的计算,我们选累积贡献率为92.5%的四个公共因子,得到初始载荷阵A,经方差最大正交旋转后得到A c阵(见下表)。
旋转后的载荷阵表
F1F2F3F4 POP-0.324730.869950.03131-0.20901
GDPP0.794430.005650.396510.31568
OTHR0.75424-0.438490.21224-0.04147
RS0.226460.916150.26001-0.10343
CPI0.17880-0.211010.087120.94092
AS0.956150.10917-0.020630.14918
WM-0.16819-0.18676-0.95642-0.08235
由上表可见,F1主要代表指标AS、GDPP,这两个统计指标的相关程度比较高(0.7801),由于F1与AS的相关系数为0.95615,故保留AS,删除GDPP。F2主要代表指标RS、POP,这两个统计指标相关程度也比较高(0.7388),由于F2与RS的相关系数为0.9165,故保留RS,删除POP。F3主要代表指标WM,F3与WM的相关系数为-0.9564。F4主要代表指标CPI,F4与CPI的相关系数为0.94092,而且WM、CPI与AS、RS的相关程度较低,故WM与CPI均保留。最终筛选后保留下来的指标有AS、RS、WM和CPI。
比较主成分分析与因子分析筛选指标的结果,两者只在POP与RS指标取舍上有差异,由于POP与RS的相关程度为0.7338,综合考虑后,本文确定简化后的指标为RS、AS、CPI和WM,它们代表初选的10个指标,组成一个相关程度最低、数量最少的评价投资环境的统计指标体系。
º生活一点通炖牛、羊肉时放一点桔皮,可除膻味。
7
发布评论