31
网络图用于描述点与点之间的相互联系。贝叶斯网络是由节点(点)和有向边(箭头)组成,点表示随机变量,箭头表示变量之间的依赖关系。贝叶斯网络描述随机变量的联合概率模型和多变量之间的条件独立性。20世纪80年代贝叶斯网络应用于概率专家系统和医学诊断等方面。根据已知的症状,推断疾病的概率,即计算给定证据条件下的后验概率,称为贝叶斯网络。
暴风雨作文在统计模型中,用无向图表示图模型,有向图表示贝叶斯网络,无向和有向混合图表示链图模型,统称为图模型。它们被用来描述变
贝叶斯网络和因果网络
关键词:贝叶斯网络 因果推断 统计图模型
耿 直
北京大学
量之间的相关关系和条件独立关系。将贝叶斯网络中有向边的箭头方向解释成因果关系,即由原因指向结果,这种带有因果解释的有向图称为因果网络[8,10]。因果网络用来描述变量之间的因果关系,广泛应用于因果机制的发现和因果推断中。已有很多关于图模型和因果网络的计算机软件应用于各行各业。
在生物学中,图模型用来描述基因-蛋白质-功能之间的调控关系。詹森(Jansen R.)等人在2003年提出了用贝叶斯网络预测蛋白质-蛋白质的交互作用的方法[7];弗里德曼(Friedman N.)等在2004年讨论了贝叶斯网络在基因网络构建方面的应用[2];萨持(Sachs K.)等人在2005年讨论了利用多种试验数据和因果网络
图1
细胞网络的图模型 (a) 各种贝叶斯网络[2]
32
方法应用于蛋白质调控网络的结构学习问题[9](见图1);爱丽斯(Ellis B.)提出了由试验数据学习因果网络的方法及其在蛋白质调控网络中的应用[1]
。图模型还应用于疾病的遗传分析、法院判案时的DNA (Deoxyribonucleic Acid )鉴定、构建非平稳的基因调控过程。邹(Zou ,音译)将格兰治(Granger )的因果方法和动态贝叶斯网络方法应用于生物芯片数据分析,对两种因果推断方法进行了比较[14]。
在图像处理中,图模型被用来描述像素之间的马尔可夫性。在模式识别中,图模型被用来描述分类变量与观察证据之间的相互关系。在语音识别中,图模型被用来描述信号与潜在真实字母之间的广义隐马氏模型。在心理学认知方面,图模型被用来描述心理和生理信号与认知之间的关系。在市场营销方面,因果网络被用来分析评价各种促销活动对于不同商品
销售的作用。2008年IEEE 计算智能世界大会(IEEE World Congress o n C o m p u t a t i o n a l Intelligence ,WCCI )组织的第一次因果挑战研讨会上(Workshop ),提出了从数据中挖掘因果网络和基于因果网络预测的挑战问题1。2008年神经信息处理系统会议(N e u r a l Information Processing Systems ,NIPS )组织的第二次因果挑战讨论会(Workshop )上,提出
了利用纵向数据和时间序列数据进行动态因果
网络挖掘和局部因果网络挖掘的挑战问题2。
从数据构建网络结构
海克曼(Heckerman D.)介绍了贝叶斯网络的学习方法。大规模、高维变量的图模型结构学习和参数学习都是具有挑战性的难题[6]。从计算复杂性考虑,贝叶斯网络的结构学习是NP 困难问题;从统计推断功效方面考虑,高维稀疏数据的统计检验也变得很困难。最早的结构学习方法有IC 算法和PC 算法。 撒马蒂努斯(Tsamardinos I.)等人提出了贝叶斯网络结构学习的最大最小爬山法,用网络中搜索各个节点邻居的算法,再根据每个点的邻居情况构造整个网络[11]。谢(Xie ,音译)等人给出了递归分解一个大规模网络的结构学习为小规模局部网络结构学习的方法[12]。这个分解算法首
1
www.hz.ch/challenge.php
2
www.hz.ch/pot-luck.php
图1 细胞网络的图模型 (b) 数字描述了10个干预条件
[9]
先构造一个变量集合的无向图,并进行结构分解;每个分解后的无向图再构造局部无向图,再分解;递归进行,直到无向图不可分解为止;在不可分解的无向图里,即完全子图内进行有向图的结构学习;在递归的回代过程中,逐步合并有向子图,最终得到整个有向图。学习无向图的算法复杂度比较低,学习有向图的复杂度很高,该算法的中心思想是将整个有向图学习分解到不可分解的无向子图内执行。有些学者探讨了不完全数据情况下图模型的EM 算法、贝叶斯网络的分解学习算法、利用多个不完全观测数据库和条件独立性的先验知识进行网络结构学习的方法,以及链图模型的结构学习方法等。
构建因果网络可以采用贝叶斯网络结构学习的方法,根据观测数据来构建网络结构。但是,仅由观察性研究得到的数据不能完全确定所有因果方向,只能得到具有相同马尔可夫性质或相同条件独立性的因果网络的集合。这个集合可能由很多网络组成,不同网络中的相同节点对(例如,点a和点b)之间边的箭头方向也许不同。例如,在一个图中为a→b,在另一个图中为a←b。这个网络的集合可以用一个链图表示,链图中的有向边表示该集合中所有网络有一致的箭头方向,无向边表示网络之间存在不同的箭头方向。为了确定这个集合中哪一个网络是真正的因果网络,需要干预试验的数据。例如,如
果干预变量a之后,变量b的分布发生了变化,那么就能确定为a→b。萨持等人讨论了利用多种试验数据进行因果网络结构学习的方法,用于蛋白质调控网络的构建。爱丽斯提出了由试验数据学习因果网络的随机模拟方法,也用于构建蛋白质调控网络。他们提出的方法,都是基于试验数据和观测数据的联合似然函数进行的结构学习,没有考虑如何有效地设计干预试验。何(He,音译)等人提出了两种因果网络的最佳干预试验设计方法[5]。一种是成批进行干预试验,一次干预若干个节点,使得干预后就能惟一确定因果网络。另一种是
王者荣耀更新不了怎么回事每次干预一个节点,根据每次干预的结果,再
选择干预下一个节点,这是一种逐步干预试验
方法。这两种方法都希望能够以干预最少的节
点来确定所有变量之间的因果方向,即确定由
观察研究数据获得的网络集合中哪一个网络是
真正的因果网络。逐步干预方法利用了每次干
预结果的信息,因此比成批干预方法减少了节
点;但是,逐步干预方法需要组织多次干预试
涮羊肉起源于?验,付出的代价和时间不一定比成批干预方法
少。因果网络研究的另一个重要问题是,帮助
确定混杂因素和进行观察研究设计。给定一个
已知因果网络,确定在一个观察研究中应该观
测的变量集合,使所关心的因果作用可以由观
测数据来识别[3]。在科学研究中常常不仅限于
预测问题,还有兴趣探索多因素之间的因果机
制。例如,关心两个变量之间的因果作用是如
何产生的?两者间的作用有多大程度是这两者
之间直接产生的?有多少是通过其他因素间接
地产生的?给定因果网络中的一条路径,如何
判断该路径上的因果作用的可识别性,如何进
行试验和观察设计使得该因果路径的作用可识
别。在因果路径终点指标不可观测时,因果网
络可用于帮助确定替代指标的准则。
干预结果的预测方法
回归预测的方法经历了百年历史,至今
仍然是一种应用广泛、有效的预测方法。在使
用传统预测过程中,首先利用训练样本的数据
构建模型,然后根据构建的模型对新的个体或
对象进行预测,常常还根据预测模型提出干预
措施,以达到期待的目标。尽管近几年在数据
建模方面出现了很多新的有效方法,如逐步筛
选预测变量的方法、高维数据的变量选择和降
维的方法等,但是大部分的预测方法都是基于
相关性的方法。它们通过训练样本建立变量间
相关关系的模型。利用这种模型进行预测需要
33
34
一个假定:待预测的个体和训练样本是同分布的。但是,在外部对个体进行干预的情况下,这个个体就不再与训练样本是同分布的了。例如,利用传统的预测方法,根据小学生的鞋子大小能很好地预测识字的多少。但是,如果我们进行干预,强制让小孩穿一双大的鞋子,小孩的识字能力不会提高。由
此可见,利用基于相关关系的预测模型制定干预措施,不一定能达到预期目标。一个干预措施将会导致总体发生变化,导致待预测的个体和训练样本有不同的分布。凭相关关系得到的知识也许是虚假的,“真正的知识是凭原因而得到的知识”(摘自培根的《新工具》)。
戈扬(Guyon )提出了关于干预情况下进行预测的因果挑战问题[4]。考虑图2(a )给出的肺癌因果网络,描述了肺癌的原因是吸烟和基因,肺癌的结果是咳嗽和乏力。基于相关关系预测癌症的模型将包括癌症节点的马尔可夫(Markov )外围层(Blanket),即癌症的所有原因变量和结果变量,并且包括结果变量的原因变量,如过敏(Allergy )节点;肺癌节点的马尔可夫外围层,如图2(a )中深绿,例如,“Smoking ”节点的颜。在马尔可夫外围层给定下,肺癌将独立于其他变量。假若采取了干预措施,对吸烟(Smoking)、黄手指(Yellow Fingers)、乏力(Fatigue )和注意失调(Attention Disorder )进行了干预,它们不再受各自原因变量的影响,如图2(b )所示。在干预的情况下,特别是不知道外部干预了哪些变量的情况下,需要基于因果模型进行预测,干
预一个原因变量不会导致结果变量的变化。基于因果的预测过程是,首先根据训练样本构建因果网络,根据因果网络选择出待预测变量的原因集合;然后根据原因变量和待预测变量建立预测模型;对干预情况下的个体,利用原因变量进行预测。尹(Yin ,音译)等人提出了一种局部因果网络结构学习的算法[13],只需要构建一个特定目标变量周围的局部网络,即可确定该目标变量的所有原因变量。
回娘家原唱展望
在图模型的研究方面,高维数据、混合
(a) 肺癌的因果网络
(b) 干预Smoking, Yellow Fingers, Fatigue 和Attention Disorder 后的网络图2 因果网络与干预后的网络
[4]
Lung Cancer
Smoking
Genetics
Coughing
Attention Disorder
Allergy
Anxiety
Peer Pressure Yellow
Fingers
Car Accident
Born an Even Day
Fatigue
Lung Cancer
Smoking
Genetics
Coughing
Attention Disorder
Allergy
Anxiety
Peer Pressure
Yellow Fingers
Car Accident
Born an Even Day
Fatigue
(d)LUCAP0(e)LUCAP1
1:Lung cancer toy example.The dark green nodes represents the minimal Markov blanket or “Markov boundary”(MB)of the target variable “Lung Can-
35
类型变量、多来源数据、时间序列数据、含隐变量等复杂数据情况下的图模型学习方法,以及利用动态数据反向重建非齐次进化网络结构的方法等都有待于研究。当变量个数远远大于样本量时,结构学习的复杂度和条件独立检验就成为瓶颈问题,需要新的变量选择方法和降维方法。当分布未知时,需要有效和稳健的非参数图模型的统计推断方法。在因果网络的研究方面,因果路径的作用、替代指标、多因素交互作用等问题都具有挑战性。从观察得到因果是一个长久吸引人和困扰人的话题。休谟(Hume )提出了论点:原因产生结果不是经验归纳可证实的。有待于探索将被动观察与主动干预试验相结合,发现挖掘因果网络的有效方法。在图模型应用方面,随着各种计算机软件的出现,图模型的统计推断方法将被广泛应用。在很多实际应用问题中,基于因果网络的预测会显得越来越重要。基于贝叶斯网络和因果网络进行因果推断的哲学基础,研究探讨数据挖掘和发现因果关系的方法,以及利用纵向研究数据进行因果推断的问题,都有待于进一步的理论探索和应用实践。对因果推断有兴趣的读者,可以参见作者关于若干因果推断统计方法的介绍[15]。
耿 直
中国现场统计研究会理事长。北京
大学数学科学学院教授。主要研究方向为因果推断、因果网络、数理统计学、生物统计学。zgeng@math.
pku.edu
[1] Ellis, B. and Wong, W. H. (2008) Learning causal Bayesian network structures from experimenta
十大女星l data. J. Am. Statist. Assoc. 103,778~789
[2] Friedman, N. (2004) Inferring cellular networks using probabilistic graphical models.
Science 303 (5659), 799~805
[3] Greenland, S., Pearl, J. and Robins, J. M. (1999) Causal diagrams for epidemiologic research. Epidemiology 10, 37~48
[4] Guyon, I., Aliferis, C., Cooper, G., Elisseeff, A., Pellet, J., Spirtes, P. and Statnikov, A. (2008) Design and analysis of the causation and prediction challenge. Proceed. J. Mach. Learn, Res. 3, 1~33
[5] He, Y. and Geng, Z. (2008) Active learning o f c a u s a l n e t w o r k s w i t h i n t e r v e n t i o n experiments and optimal designs. J. Mach. Learn. Res. 9, 2523~2547
[6] Heckerman ,D. (1999) A tutorial on learning w i t h B a y e s i a n n e t w o r k s. I n L e a r n i n g in Graphical Models, M. Jordan, ed. MIT Press, Cambridge, MA
欧弟布拉格大婚[7] Jansen R., Yu, H., Greenbaum, D., Kluger, Y., Krogan, N. J., Chung, S., Emili, A., Snyder, M., Gr
eenblatt, J. F. and Gertein, M. (2003) A Bayesian networks approach for predicting protein-protein interactions from genomic data. Science 302, 17 Oct., 449~453[8] Pearl, J. (2000). Causality: Models, Reasoning, and Inference. Cambridge, University Press [9] Sachs, K., Perez, O., Peér, D., Lauffenburger, D. A., and Nolan, G. P. (2005), Causal protein- signalling networks derived from multiparameter single-cell data. Science, 308, 523~529
[10] Spirtes, P., Glymour, C. and Scheines, R. (2000) Causation, Prediction, and Search. 2nd ed., The MIT Press
[11] Tsamardinos, I., Brown, L. and Aliferis, C. (2006) The max-min hill-climbing Bayesian network structure learning algorithm. Machine Learning 65, 31~78
[12] Xie, X. and Geng, Z. (2008) A recursive method for structural learning of directed acyclic graphs. J. Mach. Learn. Res. 9, 459~483[13] Yin, J., Zhou, Y., Wang, C., He, P. and Geng, Z. (2008) Partial orientation and local structural learning of causal networks for prediction. Proceedings J. Mach. Learn. Res. 3, 93~105[14] Zou, C. L. and Feng, J. F. (2009) Granger causality vs. dynamic Bayesian network inference : a comparative study. To appear in BMC Bioinformatics
[15] 耿直 (2009) 因果挖掘的若干统计方法. 将出 版在《机器学习及其应用:2009》周志 华,王珏 主
编,清华大学出版社
参考文献
发布评论