⼀个测验是否标准化了,须在下⾯⼏个⽅⾯受到考验:
  1.取样(sampling)⼼理测验是衡量某⼀⼼理品质的标尺,这个标尺产⽣于样本。⼈们的⼼理活动千差万别,所以取样时,必须照顾取样的代表性。根据样本结果来使测验标准化,这个样本便是测验的标准化样本。在选择测验时除了了解所取样本的代表性外,还要注意这⼀样本与受试的情况是否相应。⼀般来说,要考虑样本的年龄范围、性别、地区、民族、教育程度、职业等基本特征。如果是临床量表,还应有疾病诊断、病程及等背景。受试者的情况在这些⽅⾯与样本相应,所测结果与样本才有可⽐性。在实际⼯作中,不是所有时候都有⼀个很适合的⼯具供使⽤,不得已也会使⽤不很相应的量表。这时,在解释中须加以说明,并持谨慎态度,否则很易造成错误。
  2.常模(norm)常模是⼀种可供⽐较的普通形式。通常有如下⼏种:
  (1)均数:是常模的⼀种普通形式。某⼀受试所测成绩(粗分,或称原始分)与标准化样本的平均数相⽐较时,才能确定其成绩的⾼低。
  (2)标准分:均数所说明的问题还是有限的。只看均数,不注意分散情况,所得受试者的信息⾮常有限。如⽤标准分作常模,便可提供更多的信息。标准分能说明受试者的测验成绩在标准化样本的成绩分布图上居何位置。标准分(Z)=受试者成绩(X)与样本均数(x)之差(即X-x)除以样本成绩标准差(SD)。简化成Z=(X-x)/SD.这样⼀来,不仅说明受试者的成绩与样本⽐较在其上或其下,⽽且还
说明相差⼏个标准差。
  许多量表采⽤这种常模或由此衍化出来的常模。例如:在Wechsler⽒量表中,离差智⾼=100+15(X-x )/SD便是这⼀种。离差智商与标准分常模的不同之处在于:⼀是标准分均数为0.⽽离差智商均数为100.即Z=X在标准分时为0,在离差智商时为100;⼆是标准分的SD值随样本⽽定,⽽离差智商中是令标准差为15(Stanford Binet 为16)。
  (3)T分:T分常模是标准分衍化出来的另⼀种常⽤常模。例如MMPI便采⽤此种常模。它与离差智商的不同之处,是所设的均数值及标准差不同。T分计算的公式:
  T=50+10(X-x)/SD
  (4)由标准分衍化⽽来的其他形式的常模;标准20和标准10即是属于这⼀类,都是改变均数及标准差值⽽得。其计算公式如下;
  标准 20=10+3(X-x)/SD
  标准10=5+1.5(X-x)/SD
  在韦⽒量表中,有粗分、量表分以及离差智商诸量数。其中量表分的计算⽅法即属此处的标准20计算法。
  (5)百分位(percentile rank,PR):这是另⼀类常⽤常模,⽐标准分应⽤得早,且更通⽤。它的优点是不需要统计学的要领便可理解。习惯上将成绩差的排列在下,好的在上,计算出样本分数的各百分位范围。将受试者的成绩与常模相⽐较。如相当百分位50(P50),说明此受试者的成绩相当标准化样本的第50位。也即是说,样本中有50%的⼈数,其成绩在他之下(其中的⾄多和他⼀样),另外50%⼈数的成绩⽐他的好。如在P25,说明样本中25%的成绩在他之下(或⾄多和他⼀样),另有75%⼈数的成绩⽐他的好。以此类推。
  (6)划界分(cut off score):在筛选测验中常⽤此常模。如教育上⽤100分制时,以60分为及格分,此即划界分。⽽⼊学考试时的划界分因考⽣成绩和录取⼈数⽽异。在临床神经⼼理测验中,将正常⼈与脑病患者的测验成绩⽐较,设⽴划界分,⽤这个分数划分有⽆脑损害。如果某测验对检查某种脑损害很敏感,就说明设⽴的划界分很有效。病⼈被划⼊假阴性的⼈数就很少甚⾄没有,正常⼈被划为假阳性的也很少或没有。如果不敏感,则假阳性或假阴性的机会均会增加。
  (7)⽐率(或商数):这⼀类常模也较常⽤。例如:在离差智商计算⽅法之前,便使⽤⽐率智商。其计算⽅法:IQ=MA/CA×100,是将MA(⼼理年龄)与CA(实际年龄)相等的设作100,以使IQ成整数。H.R.B.中的损伤指数也是⽐率常模。损伤指数=划⼊有损的测验数/受测的测验。
  以上是通⽤常模形式,此外还有各种性质的常模。如年龄常模(按年龄分组建⽴的)、性别、区域和
考验智商的电影各种疾病诊断的常模。从可⽐性看,常模越特异越有效。从适应性讲,则以通常模使⽤⽅便。例如:以智⼒测验为例,全国常模运⽤的范围⼴,⽽区域常模应⽤的地区则有限。但后者⽐前者更精确。有的常模虽系区域性,但因该区域有代表性,也可⽤于相似地区。
  3.信度(reliability)⼼理测验的信度是指同⼀受试者在不同时间⽤同⼀测验(或⽤另⼀套相等的测验)重复测验,所得结果的⼀致性程度。信度⽤系数(coefficient)来表⽰。⼀般说,系数越⼤,说明⼀致性⾼,测得的分数可靠;反之则相反。信度的⾼低与测验性质有关。通常,能⼒测验的信度(要求0.80以上)⾼,⼈格测验的信度(要求0.70以上)低。凡标准化的测验⼿册,都需要说明本测验⽤各种⽅法所测得的信度。考验信度通常有如下⽅法:
  (1)重测信度:同⼀组受试在两次不同时间作同⼀套测验所得结果的相关性检验。
  (2)正副本相关:有的测验同时编制了平⾏的正副本,将同⼀组受试的两套测验结果进⾏相关性检验。
  (3)分半相关:将⼀套测验的各项⽬(要求按难度为序)按奇、偶数号分成两半,对所测结果进⾏相关性检验。
  其它尚有因素信度、测量标准误等,此处从略。
  4.效度(Validity)所谓效度即有效性,指此测验测查到所要测查的没有?测查到何种程度?如⼀个智⼒测验,若测验结果所表明的确实是受试的智⼒,⽽且量准了智⼒⽔平,那么这⼀智⼒测验的效度好;反之则不好。效度检查,也同信度检查⼀样,有多种⽅法,并有各种名称,如内容效度、预测效度、因素效度、内部效度等。美国⼼理协会在《⼼理测验和诊断技术介绍》,简称《APA》(1954)及《教育和⼼理测验的标准与⼿册》(1966)中将它们分为三类。即校标(criterion)效度、内容(content)效度和结构(construct)效度三类,以后⼴泛沿⽤。
  (1)校标效度:即将测验结果与某⼀标准⾏为进⾏相关检查。如智⼒测验与学习成绩,诊断测验与临床诊断进⾏相关检查等均属之。
  (2)内容效度:指测验映所测量内容的程度。如算术成就测验应反映受试者运算能⼒的程度。测验与之相关的标准,是⽼师的评定,⽇常⽣活或⼯作中所表现的能⼒等。
  (3)结构效度:反映编制此测验所依据理论的程度。如编制⼀个智⼒测验,必定依据有关智⼒的理论。该测验所反映此智⼒的程度,可⽤结构效度来检验。
  5.⽅法的标准化 施测⽅法、记分⽅法、标准结果的换算法等都要按⼀定的规定进⾏,⽅符合标准测验的条件。