心理科学进展  2014, Vol. 22, No. 5, 731–745 Advances in Psychological Science
DOI: 10.3724/SP.J.1042.2014.00731
731
·主编特邀(Editor-In-Chief Invited)·
编者按:
中介效应分析在许多领域都有广泛应用, 因为它可以分析变量之间影响的过程和机制, 相对于回归分析, 可以得到比较深入的结果。虽然中介分析不能肯定地说“证实”了什么, 但可以帮助我们支持某种理论而排除其竞争的理论。温忠麟教授及其合作者有关中介分析方法的研究, 引领和推动了中介分析在国内的应用, 他们2004年发表在《心理学报》上的论文, 在Google 学术搜索上可以查到被上千篇论文引用。最近10年, 中介效应分析方法和模型都有了许多发展, 本文作者做了相当全面的综述, 并尝试澄清一些有争议的问题。这些看似不大的争议, 在统计上还是很重要的, 会影响检验流程。作者还就如何分析因果关系, 提出了理论分析的若干思路。本文对中介效应分析的逻辑和统计方法有相当透彻的理解, 在中介分析的立论、建模、检验和解释方面有很高的参考价值。本刊希望通过温忠麟和叶宝娟的这篇文章, 提高应用工作者涉及中介分析的论文质量。
(本文责任编辑:侯杰泰)
中介效应分析:方法和模型发展*
温忠麟1,2  叶宝娟3
(1华南师范大学心理应用研究中心/心理学院, 广州 510631)
(2香港考试及评核局, 香港)  (3江西师范大学心理学院, 南昌 330022)
摘  要  在心理学和其他社科研究领域, 大量实证文章建立中介效应模型, 以分析自变量对因变量的影响过程和作用机制。检验中介效应最流行的方法是Baron 和Kenny 的逐步法, 但近年来不断受到批评和质疑, 有人甚至呼吁停止使用其中的依次检验, 改用目前普遍认为比较好的Bootstrap 法直接检验系数乘积。本文对相关的议题做了辨析, 并讨论了中介分析中建立因果关系的方法。综合新近的研究成果, 总结出一个中介效应分析流程, 并分别给出显变量和潜变量Mplus 程序。最后介绍了中介效应模型的发展。 关键词  中介效应; 间接效应; 逐步法; Bootstrap 法; 因果 分类号
B841
近年来, 在心理学和其他社科研究领域, 大量实证文章建立中介效应(mediation effect)模型进行分析。例如,
Rucker, Preacher, Tormala 和Petty (2011)统计发现, 2005至2009年发表在Journal of
收稿日期:2014-02-06
* 国家自然科学基金(31271116)、教育部人文社会科学重点研究基地项目(11JJD190005)、中国博士后科学基金项目(2013M540535)、教育部人文社会科学研究青年基金项目(13YJC190029)和江西省博士后科研择优资助项目(2013KY08)资助。
通讯作者:温忠麟, E-mail: wenzl@scnu.edu
Personality and Social Psychology (JPSP)和Personality and Social Psychology Bulletin (PSPB)上的文章, 分别有59%和65%使用了中介检验。国内心理学期刊上有关中介效应文章所占的比例, 也可以用引人注目来形容。中介效应模型可以分析自变量对因变量影响的过程和作用机制, 相比单纯分析自变量对因变量影响的同类研究, 中介分析不仅方法上有进步, 而且往往能得到更多更深入的结果, 这可以解释为什么中介分析受到重视。
检验中介效应最流行的方法是Baron 和
732 心 理 科 学 进 展 第22卷
Kenny (1986)的逐步法(causal steps approach)。但是, 近年来逐步法受到几乎是一边倒的批评和质疑(例如, Edwards & Lambert, 2007; Hayes, 2009; Spencer, Zanna, & Fong, 2005; Zhao, Lynch, & Chen, 2010)。有人甚至呼吁停止使用依次(piecemeal)检验(逐步法中的一个步骤), 改用目前普遍认为比较好的Bootstrap 法直接检验系数乘积的显著性(如Zhao et al., 2010)。本文在介绍各种中介分析方法后, 对这些批评逐一做了辨析, 特别谈到中介分析如何从理论上建立因果关系; 综合新近的中介效应方法研究成果, 总结出一个中介效应分析流程; 还介绍了中介效应模型的新近发展。
1  中介效应模型及检验方法介绍
考虑自变量X 对因变量Y 的影响, 如果X 通过影响变量M 而对Y 产生影响, 则称M 为中介变量。例如, “家庭社会经济地位”影响“家庭功能”, 进而影响“青少年疏离感”。为了行文简便, 避免在回归方程中出现与方法讨论无关的截距项, 假设所有变量都已经中心化(即将数据减去样本均值, 中心化数据的均值为0)或者标准化(均值为0, 标准差为1), 可用下列回归方程来描述变量之间的
关系(图1是相应的路径图):
1Y cX e =+ (1)  2M aX e =+ (2)
3Y c X bM e ′=++ (3) 其中方程(1)的系数c 为自变量X 对因变量Y 的总效应; 方程(2)的系数a 为自变量X 对中介变量M 的效应; 方程(3)的系数b 是在控制了自变量X 的影响后, 中介变量M 对因变量Y 的效应; 系数c ′
是在控制了中介变量M 的影响后, 自变量X 对因变量Y 的直接效应; e 1~e 3是回归残差。对于这样的简单中介模型, 中介效应等于间接效应(indirect effect), 即等于系数乘积ab , 它与总效应和直接效应有下面关系(MacKinnon, Warsi, & Dwyer, 1995):
c c ab ′=+ (4)
检验中介效应最常用的方法是逐步检验回归系数(Baron & Kenny, 1986; Judd & Kenny, 1981; 温忠麟,
张雷, 侯杰泰, 刘红云, 2004), 即通常说的逐步法:(i)检验方程(1)的系数c  (即检验H 0 : c = 0); (ii)依次检验方程(2)的系数a  (即检验H 0 : a = 0)和方程(3)的系数b  (即检验H 0 : b = 0), 有文献称之为联合显著性检验(test of joint significance, Hayes, 2009)。如果(i)系数c 显著, (ii)系数a 和b 都显著, 则中介效应显著。完全中介过程还要加上:(iii)方程(3)的系数c ′不显著。
上述Baron 和Kenny (1986)的逐步法, 第一步检验的是X 对Y 的总效应; 第二步实际上是检验系数乘积的显著性(即检验H 0 : ab = 0), 通过依次检验系数a 和b 来间接进行; 第三步检验用来区分完全中介还是部分中介。这三步其实是可以
分开进行的。区分每一步的目的对理解和讨论逐步法很重要。特别地, 我们将检验系数乘积(即检
验H 0 : ab = 0)的依次检验与逐步法区分开来, 前者是后者的一个步骤。文献提到逐步法时, 有的
是指全部步骤, 有的却是指依次检验, 不小心的读者容易引起混淆。
系数乘积的检验(即检验H 0 : ab = 0)是中介效应检验的核心, 下面先集中讨论其检验方法。依明道的微博
图1  中介模型示意图
第5期 温忠麟等: 中介效应分析:方法和模型发展 733
次检验是对系数乘积的间接检验, 想法很直观, 如果检验结果是0a ≠且0b ≠, 就可以推出0ab ≠。这个推理在代数上没有问题, 但在统计
检验上如何呢?模拟研究发现, 用依次检验来检验H 0 : ab = 0, 第一类错误率较低, 低于设定的显著性水平(如0.05) (MacKinnon, Lockwood, Hoffman, West, & Sheets, 2002; 温忠麟等, 2004)。这就是说, 如果依次检验结果a 和b 都显著, 已经足够支持所要的结果, 即ab 显著。但依次检验的检验力(power)也较低, 即系数乘积实际上显著而依次检验比较容易得出不显著的结论(Fritz & MacKinnon, 2007; MacKinnon et al., 2002)。
图片检验系数乘积更多的是直接针对假设H 0 : ab = 0提出的检验方法。Sobel (1982)法就是比较有
名的一种。检验统计量为ˆˆ/ab
z ab
s =, 其中ˆa 和ˆb 分别是a 和b 的估计
, ab s ˆˆab 的标准误, s a 和s b 分别是ˆa
和ˆb 的标准误。模拟研究发现, Sobel 法的检验力高于依次检验(MacKinnon
et al., 2002; 温忠麟等, 2004)。但这个检验统计量
的推导需要假设ˆˆab
服从正态分布, 就算其中每一个系数都是正态分布, 其乘积通常也不是正态的, 因而上面标准误ab s 的计算只是近似的, 可能很不准确。这样, Sobel 检验的局限性是很明显的(方杰, 张敏强, 2012; Hayes, 2009; MacKinnon, 2008;
MacKinnon, Lockwood, & Williams, 2004)。
试图用来替代Sobel 法直接检验H 0 : ab = 0的方法至少有三类(方杰, 张敏强, 2012), 包括乘积分布法、Bootstrap 法和马尔科夫链蒙特卡罗
(MCMC)法。乘积分布法默认ˆˆab上古十大神剑
分布是两个正态变量的乘积分布, 根据乘积分布构建临界值进行检验和区间估计(Fritz & MacKinnon, 2007;
MacKinnon et al., 2004; Tofighi & MacKinnon, 2011)。
Bootstrap 法是一种从样本中重复取样的方法, 前提条件是样本能够代表总体(当然这也是通常取样进行统计推论的要求)。Bootstrap 法有多种取样方案, 其中一种简单的方案是从给定的样本中有放回地重复取样以产生出许多样本, 即将原始样本当作Bootstrap 总体, 从这个Bootstrap 总体中重复取样以得到类似于原始样本的Bootstrap 样本(Wen, Marsh, & Hau, 2010)。例如, 将一个容量为500的样本当作Bootstrap 总体, 从中有放回地
重复取样, 可以得到一个Bootstrap 样本(容量还是500)。类似的可以得到很多Bootstrap 样本(比如1000个), 对这1000个Bootstrap 样本, 可以得福州移动营业厅
到1000个系数乘积的估计值, 其全体记为ˆˆ{}ab 。将它们按数值从小到大排序, 其中第  2.5百分位点和第97.5百分位点就构成ab 的一个置信度为
95%的置信区间, 据此就可以进行检验了:如果置信区间不包含0, 则系数乘积显著(方杰, 张敏强,
2012; Preacher & Hayes, 2008; Preacher, Rucker, & Hayes, 2007; 温忠麟, 刘红云, 侯杰泰, 2012), 这样的检验方法称为非参数百分位Bootstrap 法, 检验力高于Sobel 检验(Fritz & MacKinnon, 2007;
MacKinnon et al., 2004)。检验力更高的是使用偏差校正后的置信区间, 即所谓的偏差校正的非参数百分位Bootstrap 法(Edwards & Lambert, 2007; 方杰, 张敏强, 2012; Fritz & MacKinnon, 2007;
MacKinnon, 2008; Preacher & Hayes, 2008; Taylor, MacKinnon, & Tein, 2008; 温忠麟等, 2012)。在Bootstrap 法前面冠以“非参数”, 是因为所论的Bootstrap 法不涉及总体分布及其参数(因而不要求正态假设), 利用样本所推导的经验分布代替总体分布, 属于非参数方法。
在中介效应分析中, 马尔科夫链蒙特卡罗
(MCMC)法是一种贝叶斯统计方法(Ntzoufras, 2009; Yuan & MacKinnon, 2009)。具体一点说, MCMC 法是在贝叶斯理论框架下, 将马尔科夫链过程引入到蒙特卡罗模拟中, 实现抽样分布随模拟的进行而改变的动态模拟(方杰, 张敏强,
2012)。
MCMC 法需要较多的统计知识和复杂的算法, 还会涉及引起争论的先验分布(prior
distribution)问题, 这里不拟多说。
研究发现, 上述三类方法中, 用偏差校正的非参数百分位Bootstrap 法或者有先验信息的
MCMC 法计算系数乘积的置信区间比Sobel 法得到的置信区间更精确, 有更高的检验力(方杰, 张敏强, 2012; Hayes & Scharkow, 2013; MacKinnon,
2008; Preacher & Hayes, 2004; Yuan & MacKinnon, 2009)。
常用的统计软件Mplus (Muthén & Muthén, 2012)已经有简单的指令, 调用Bootstrap 法和MCMC 法计算系数乘积的置信区间, 实现系数乘积的Bootstrap 法检验和MCMC 法检验。不熟悉
Bootstrap 法和MCMC 法的读者, 可以将其和最小二乘法、极大似然法那样看待, 利用统计软件提
734 心 理 科 学 进 展 第22卷
供的功能实现计算。但多数方法学文章都只推荐
Bootstrap 法(例如Biesanz, Falk, & Savalei, 2010; Cheung & Lau, 2008; Fritz, Taylor, & MacKinnon, 2012; Hayes & Scharkow, 2013; MacKinnon et al., 2004; Pituch & Stapleton, 2008; Pituch, Stapleton, & Kang, 2006; Taylor et al., 2008), 而且MCMC 法的先验分布通常也无法得到, 所以到目前为止,
Bootstrap 法是公认的可以取代Sobel 法而直接检验系数乘积的方法。不过, 偏差校正的非参数百分位Bootstrap 法在某些条件下的第一类错误率会超过设定的显著性水平(如0.05) (方杰, 张敏强,
2012; Fritz & MacKinnon, 2007; MacKinnon et al., 2004), 而非参数百分位Bootstrap 法没有这个问题(Fritz et al., 2012)。
因为ab c c ′=−, 所以检验间接效应也可以通过检验0:0H c c ′−=来进行(Clogg, Petkova, &
Shihadeh, 1992; Freedman & Schatzkin, 1992), 称为系数差异检验法, 以区别上面讨论的系数乘积检验法。但因为系数差异检验法的第一类错误率明显高于系数乘积检验法(可能远高于0.05), 所以它们很早就输给了系数乘积检验法(MacKinnon
et al., 2002; 温忠麟等, 2004), 后面不提。 总结一下, 检验间接效应可以分成两类, 一
类是检验H 0 : ab = 0, 另一类是检验0:H c c ′−
0=。检验H 0 : ab = 0又可以分成间接检验和直接检验两类。依次检验是间接检验H 0 : ab = 0, 而
Sobel 检验、Bootstrap 法、MCMC 法等是直接检验H 0 : ab = 0。直接检验H 0 : ab = 0比较好的方法是偏差校正的非参数百分位Bootstrap 法, 应当取代Sobel 检验。研究者如果在乎检验的第一类错误率, 使用非参数百分位Bootstrap 法比较妥当外墙钢丝网
(Fritz et al., 2012; Hayes & Scharkow, 2013)。但很多文献想当然就认为依次检验也应当让位给
Bootstrap 法, 至少从检验的角度来说是没有道理的, 下一节会详细讨论。
2  对Baron 和Kenny 逐步法的质疑和辨析
Baron 和Kenny (1986)的逐步法的每一步, 都有人提出批评和质疑, 最彻底否定的要数Zhao 等人适合穷人翻身的10个行业
(2010)的文章。下面看看这些批评要点, 逐一辨析。 2.1  依次检验还有用吗?
就间接效应的检验而言, 依次检验方程(2)
的系数a 和方程(3)的系数b , 是最多人使用的方法。尽管早有方法文章已经建议使用Bootstrap 法直接检验系数乘积, 但很多应用工作者还是照用依次检验。依次检验受到欢迎的原因是方法简单, 容易理解和解释。方法学者不推荐也可以理解, 因为依次检验的检验力在各种方法中是最低的
(Fritz & MacKinnon, 2007; Hay, 2009; MacKinnon et al., 2002)。
就是说, 依次检验比较不容易检验到中介效应显著。但如果研究者用依次检验已经得到显著的结果, 检验力低的问题对其而言就不是问题!此时, 依次检验的结果甚至好过Bootstrap 法的结果, 奇怪的是似乎很少人理解到的这一点, 下面给出理由。
设想甲乙两人用同一组数据检验系数乘积
(即检验H 0 : ab = 0), 甲做依次检验结果显著, 乙用Bootstrap 法检验结果也显著, 甲的结果更好:
(1)看着甲的结果, 我们几乎可以肯定乙的检验结果也是显著, 因为Bootstrap 法的检验力高于
Sobel 检验(Fritz & MacKinnon, 2007; MacKinnon et al., 2004), 后者又高于依次检验(MacKinnon et al., 2002); 而看着乙的结果却不能判断甲的检验结果是否显著(因为依次检验比较不容易得到显著的结果)。(2)看着甲的结果, 我们知道X 显著影响M , 而且M 显著影响Y , 推论是间接效应显著; 看着乙的结果, 我们只知道间接效应是显著的, 但不知道X 是否显著影响M , 也不知道M 是否显著影响Y 。(3)当检验结果是显著的时候, 可能的错误只是第一类的。检验力比较高的方法, 通常也有比较高的第一类错误率。前面说过, 当设定显著性水平0.05时, 依次检验的第一类错误率低于0.05(MacKinnon et al., 2002; 温忠麟等,
2004), 而Bootstrap 法的第一类错误率可能会超过0.05 (Fritz & MacKinnon, 2007; MacKinnon et al., 2004)。
一般而言, 甲的错误率不会比乙的错误率高。综合上面三点可以说, 如果检验结果都显著, 依次检验的结果强于Bootstrap 法检验结果。
但要注意, 上面说的是已经得到“显著”结果的情况(就像大多数投稿中的结果那样), 才是依次检验的结果强于Bootstrap 法检验结果。但并不意味着要推荐依次检验、不推荐Bootstrap 法, 因为两者的检验力高低不同。我们推荐的检验方法和步骤详见第3节。
第5期温忠麟等: 中介效应分析:方法和模型发展 735
2.2要先检验总效应吗?
逐步法中第一步是检验方程(1)的系数c, 有些人认为没有必要(例如, MacKinnon, Krull, & Lockwood, 2000; Zhao et al., 2010)。他们的论据是, 间接效应(ab)的符号可能和直接效应(c′)的符号相反, 使得总效应(c)不显著, 但中介效应还是存在; 也可能存在两条中介路径, 其间接效应大小相近但符号相反, 使得总效应不显著。就是说, 即使总效应不显著, 间接效应还是可能存在。
这里其实涉及两个问题, 一是要不要检验系数c?二是中介效应要不要以系数c显著为前提条件?第一个问题的答案是肯定的, 因为研究者肯定会关心X是否显著影响Y。对于特定的两个变量X和Y, 如果根据理论、经验或者与他们关系密切的第三个变量M, 都无法设想X和Y之间有关系的话, 还会去研究X如何影响Y吗?文章将如何立论?所以说, 研究者肯定会关心X和Y 之间关系。
对于第二个问题, 则涉及到“中介效应”概念的定义问题。以系数c显著为前提条件是一种定义, 不用这个前提条件是另一种定义, 从外延来看, 后者包含了前者。按概念的外延与内涵的反变关系, 后者的内涵缩小了。这是要引起重视的, 而不是仅仅支持或者反对这个系数c显著为前提就完事。如果不加区分的使用两种不同定义的概念, 就会造成混乱。这方面应当向数学家学习, 他们将“数”的概念不断扩张的同时, 也用不同的名称进行区分, 如整数、有理数、实数和复数。
按Baron和Kenny (1986)定义, 中介效应是以系数c显著为前提, 即X显著影响Y为前提。在这个定义下,
分析中介效应可以解释“X如何影响Y”, 中介过程提供了“X对Y的作用机制” (MacKinnon & Fairchild, 2009; 温忠麟, 侯杰泰, 张雷, 2005)。涉及中介的应用文章往往会声称要研究“X对Y的作用(或影响)机制”。如果系数c不显著, 就说明X对Y的影响不显著, 如果还问“X 如何影响Y”或者“X对Y的作用机制是什么”, 不合常理。此时, 合理的问题应当是“X为何不影响Y”, 建模的逻辑已经与前面说的中介模型的逻辑不同了。所以比较好的做法是将这种情形与通常中介效应区分开来, 不少文献称之为“遮掩效应” (suppressing effects) (Kenny, 2003; MacKinnon, 2008; MacKinnon et al., 2000, 2002; Shrout & Bolger, 2002)。如果间接效应和直接效应符号相反, 总效应就出现了被遮掩的情况, 其绝对值比预料的要低。
温忠麟等人(2012)的书上, 将系数c不显著的情形归入“广义中介分析”, 既说明这种情形与通常的中介分析有区别, 也可以看出与中介分析有联系。如果根据前后文可以自明, 也可以删去“广义”两字。说到底, 如果是按传统的目的研究中介效应, 是要以系数c显著为前提, 否则就是另一个故事了。比方说, 如果一个人买了房子, 你可以问“他是通过中介买的, 还是自己直接买的?”但如果一个人没有房子, 此时的问题应当是“他为啥没有房子?”, 可能根本就没有买过, 也可能买了又卖掉了(类似于符号相反的抵消)。从问题的提出, 到结果的解释, 两种情形可能是很不同的故事。
这样说来, 我们不用去争论中介效应要不要以系数c显著为前提, 而是应当根据实际情况进行立论, 合理地提出相应的问题, 建立模型进行分析, 并作出相应的解释。虽然系数c不显著还是可以继续分析, 但应
当明白, 系数c显著与否, 是不同的事情, 用不同的名称区分开来是明智的做法。与此相关的两个同义词, 中介效应和间接效应, 也是有区分的。中介效应一定是间接效应, 因而有的场合两者是一回事; 但间接效应不一定是中介效应(Mathieu & Taylor, 2006; 温忠麟等, 2004)。
2.3区分完全中介和部分中介是否合适?
逐步法中最后一步, 通过检验方程(3)的系数c′来区分区分完全中介还是部分中介。如果系数c′不显著, 属于完全中介(James & Brett,1984)。Baron和Kenny (1986)认为完全中介是中介效应存在的最强有力的证明。区分完全中介和部分中介, 是对中介效应模型的效应量的一种文字描述(Preacher & Kelley, 2011), 可以帮助解释结果。
但完全中介和部分中介概念是有问题的。第一, 在总效应小(但显著)的时候, 间接效应可能不到总效应的七成, 直接效应已经不显著了, 结果是完全中介, 与常理相悖。一般地说, 当总效应小且样本也小的时候, 容易得到完全中介的结果(Preacher & Hayes, 2008), 但其实完全中介的情况是很少的(Baron & Kenny, 1986; Iacobucci, 2008)。第二, 当说M是X和Y关系的完全中介时,