R数据分析:潜在转化分析LTA的做法和解释(⼀)
之前给⼤家写了很多潜在类别分析的教程  ,今天继续给⼤家拓展⼀步。
今天要介绍的就是潜在转换分析,这个东西就是LCA的纵向版本。是⼀个专门⽤来研究质变的统计技巧。有⼀句话叫做量变起质变,你怎么知道质变到底发⽣没有?就⽤潜在转换分析。
Latent transition analysis is an extension of LCA in which you estimate the probabilities of transitions among behavior patterns over time.
潜在转换分析latent transition analysis (LTA)
潜在转换分析是潜在类别分析的纵向版,纵向研究设计的⽬的之⼀就是看变化,相应的,潜在转换分析就是⽤来看潜类别的变化的。
我们再来回忆⼀张图:
上图中我们知道根据潜变量是分类还是连续的,我们可以有潜在剖⾯分析和潜在类别分析,现在把这两个东西都放在纵向数据中,相应地,我们就有潜增长模型Latent growth model,潜在转换分析Latent transition analysis
所以,⼤家记住:
我们要研究潜剖⾯(潜变量为连续变量)的变化,就⽤潜增长模型
我们要研究潜类别(潜变量为分类变量)的变化,就⽤潜在转换分析怎么做数据分析
那么,现在看⼀个潜在转换分析的定义了:
LTA is a longitudinal extension of latent class models and enables the investigator to model a dynamic, or changing, latent variables。
上⾯这个定义太宽泛,再来看个具体的:
Latent transition analysis (LTA) is a statistical technique that, combining cross-sectional measurement of categorical latent variables and longitudinal description of change, comprises three methodological aspects: (1) a person-centered approach; (2) the use of latent categorical variables; and (3) a longitudinal design
这个就很具体了,所以⼤家记住潜在转换分析的3个特点:以⼈为中⼼,潜类别和纵向设计。
这个⽅法特别适合那种随着时间很可能会发⽣改变的⼈的特质,⽐如认知,随着时间的推移有的⼈就从⾼认知转换成低认知了,⽽另外⼀部分⼈可能从低认知转换为⾼认知....。所以研究这种动态变化的潜变量的质的改变⼀定记得潜在转换分析哦。
做潜在转换分析的时候我们都是从2个潜变量开始做的,因为你要转换嘛,所以起始类别⼀定是2,⽐如我现在想要研究⼉童认知发展,我可以在每个时间点都⽤LCA将⼉童划分为K(K≥2)个亚组,但是通过LTA我就可以得到是否随着时间变化⼉童认知会在亚组间移动。
这么⼀来,问题就来了,你想知道⼉童会不会随着时间从亚组A移动到亚组B,⾸先你得保证不同时间你测得东西是⼀样的吧,就是你在不同时间得到的亚组都是⼀样的,所以做潜在转换分析⼀定要保证亚组的稳定性。
⼤家好好理解下这个亚组稳定性:它不是说我时间1的时候某个⼈在亚组A,时间2的时候还是应该在亚组A,⽽是时间1的亚组A和时间2的亚组A都是同⼀个亚组A,亚组的特征不变!
上⾯的话⼀定要好好理解。
⼀个完整的LTA需要我们报告3个参数,其中两个和LCA⼀样,⼀个是变量响应概率另⼀个是亚组⽐例l
atent class prevalences and
item-response probabilities。第三个参数便是转换概率transition probabilities,很好理解,就是时间1时候的亚组转换到时间2不同亚组的概率。
另外,LTA根据你是否有理论基础可以是验证性的,也可以是探索性,还可以加⼊协变量和远端结局变量,具体请往下看。
潜在转换分析五步法
潜在转换分析的做法可以分为五步,这5步法是Nylund (2007)提出来的,这个我给⼤家做做简单介绍,具体请参考本⽂末尾的参考⽂献:
第1步确定每个时间点的LCA模型
这⼀步是给每个时间点都做LCA,如果你有很好的理论⽀持你就可以提前设定潜类别的个数,如果没有的话就⼀个⼀个试。
第2步根据横断⾯结果探索转换趋势
我们在第1步的时候已经给每个时间点都做了LCA,那么在第⼆步就可以来看不同时间点潜类别的转换情况。就是说模型会给我们输出每个个体在每个时间点最有可能属于的潜类别,这个叫做modal class assignment (mcaPk)。
有了这个我们就可以给不同时间点的模型做⼀个交叉表格出来探索转换趋势。
第3步
测量不变性评估过后就可以在模型中加上⾃回归了,探究类别在不同时间点的转换概率。
第4步在模型中加协变量
模型中的协变量既可以是显变量也可以是潜变量。
第5步加⼊远端结局变量
远端结局变量的意思就是潜类别有可能会导致某些结局事件,这个远端结局变量就是这些结局事件。
实例操练及解释
依然还是给⼤家写⼀个例⼦:这个例⼦关于⼈的社会发展的,社会学家认为⼈的成熟有5⼤特征,分别
是:完成教育,经济独⽴,离开⽗母,结婚,⾃觉成熟。这5个特征可以有先后,但是是否满⾜这5个特征被认为是成熟的标志。
那么我现在就想研究⼈的成熟过程,或者叫成熟转换,就是我想看看随着时间的变化⼈成熟亚组是如何转换的。
前提假设就是我们认为不同的⼈的成熟路径是不⼀样的,⽐如同样是20岁,有的⼈有了稳定的⼯作但是还和⽗母住在⼀起,有的⼈已经结婚养孩⼦了但是还没⼯作,等等。⽽且这些特征都会随着时间变化或者转化。这显然是⼀个以⼈为中⼼的研究,我们就考虑⼀波LTA,就是说我不光要看不同时间点⼈的成熟情况,我还要看随着时间的变化这中情况⼜是如何变化的。
不⽌如此,我还想看是什么因素造成了⼈的不同的成熟情况(模型加协变量)还有这个成熟情况的不同⼜会导致什么(模型加远端结局)
现在我假设⼀个变量,叫做经济⽔平(FWB),就是说经济⽔平和成熟过程的变化(成熟类型AC)是有交叉因果的,具体地,我们认为:时间点1的经济⽔平会影响影响时间点2的成熟类型,同样地,时间点1的成熟类型也会影响时间点2的经济⽔平还时间点3的经济⽔平。
在上⾯的⽰意图中,FWB1 and FWB2是两次数据收集过程中的协变量,FWB1会影响时点2的成熟类型AC2,FWB2则是AC1的结局。不同时点有⾃回归,相同时点有相关,这个就是⼀个典型的交叉滞后⾯板设计,见
好,我们放在⼀个具体的研究中来解释做LTA的0到5步,我们是⽤了5个显变量做成熟类型的LCA,以FWB为协变量和结局变量:
第0步:
上⾯写了,第⼀步是描述统计,下图便是做LCA的显变量的描述统计结果:
下图便是我们的协变量和结局变量FWB的描述,这⼉FWB会以潜变量进⼊模型,所以⼤家会看到显潜两个描述:
第1步
上⾯也说了这⼀步是给每个时间点都做LCA,下⾯的图便是在时间点1做的不同类别的LCA,共做了5个类别,中拟合指数上看,2类的时候BIC最⼩,满⾜BF⼤于3⽽且是最简洁的模型,cmP最⼤,3类的时候stdres⼩于5%⽽且最简洁,LMR-LRT和BLRT检验均显著,说明3类显著地⽐2类拟合更好,并且3类时AIC最⼩。综上最有可能成⽴的模型便是2或者3类。
所以我们就只把2类和3类拎出来进⾏分类诊断:
解释⼀下诊断结果:2类3类其实都不错,两个类别中mcaPk (class assignment proportion)均落⼊了πk (called class proportion)的置信区间之内,avePPk (average posterior probability)都超过了0.7的界值。但是从熵值上看3类时要好⼀点,OCCk( odd of
correct classification)的值也更加好(OCCk的界值为5,越⼤越好)。所以我们最终确定3类为时间点1的最佳类别数量。见下图:
看上图的第⼀类:在时间点1,在这⼀类中基本上所有的⼈都没有进⼊成熟⾓⾊,37%的⼈主观上认为⾃⼰是成⼈。第⼆类:在时间点1,这⼀类中离开⽗母的⽐例贼⾼,但是其它的成⼈⾓⾊就很低。
第三类:在时间点1,这⼀类中除了教育没完成,其他成熟指标都挺⾼。
以上就是时间点1的时候⼈的潜类别状态。
同样的,我们在时间点2的数据中重复上⾯的步骤得到结果: