什么是因果推断集智百科
“集智百科精选”是⼀个长期专栏,持续为⼤家推送复杂性科学相关的基本概念和资源信息。作为集智俱乐部的开源科学项⽬,集智百科希望打造复杂性科学领域最全⾯的百科全书,欢迎对复杂性科学感兴趣、热爱知识整理和分享的朋友加⼊!
本⽂是对集智百科中“因果推断”词条的摘录,参考资料及相关词条请参阅百科词条原⽂。
⽬录
⼀、什么是因果推断?
⼆、因果推断在流⾏病学领域
三、因果推断在计算机科学领域
四、因果推断在统计学和经济学领域
五、因果推断在社会科学领域
七、集智百科词条志愿者招募
⼀、什么是因果推断?
因果推断 Causal inference 是基于某⼀事件发⽣的条件得出关于因果联系结论的过程。因果推断与关联推断 Inference of association 的主要区别在于前者分析了当原因改变时结果变量的响应。
定义
因果推断的定义被描述为:
•推论得出“某事是(或可能是)其他事情的原因”这⼀结论。
•推论得出“某事是(或可能是)其他事情的原因”这⼀结论。
通常情况下因果推断的过程,⾸先是提出⼀个假说,然后进⾏统计学假设检验来验证。这种统计学推断有助于判断数据是由偶然性(随机变化)引起的,还是确实相关(并测量相关性的强弱)。然⽽,相关不意味着因果,因此还需使⽤其他⽅法来推断其因果关系
常见的因果推断框架有结构⽅程模型structural equation modeling 和 Rubin因果模型 Rubin causal model。
⼆、因果推断在流⾏病学领域
流⾏病学 epidemiology 研究特定⽣物体的健康和疾病模式,以推断原因和结果。暴露于危险因素和感染疾病之间可能存在关联,但不等于确定性因果关系,因为相关不意味着因果。流⾏病学运⽤不同的⽅法来收集危险因素和结果的证据,以及判定两者之间的联系。
⾃19世纪,科赫法则 Koch's postulates 就被⽤来判断⼀种微⽣物是否是引起某种疾病的病因。在20世纪,布拉德福德·希尔准则 Bradford Hill criteria 已经被⽤来评估微⽣物学之外的变量的因果关系,尽管这些标准不是确定因果关系的唯⼀⽅法。
分⼦流⾏病学(molecular epidemiology)的现象,则都是在⽣物分⼦⽔平展开研究的,包括遗传学现象。其中⽣物标志物是判断原因或结果的证据。
在新兴的分⼦病理流⾏病学 molecular pathological epidemiology(MPE)这⼀交叉学科领域,最近趋势是确定“暴露”对于病变组织或细胞内分⼦病理学影响的证据。将暴露迹象与疾病的分⼦病理特征联系起来,可以帮助评估因果关系。基于特定疾病的异质性的固有特征、独特的疾病原理等,研究疾病表现型及其亚型现在是⽣物医学和公共卫⽣科学的趋势。⽐如个体化医疗和精准医疗等。
三、因果推断在计算机科学领域
基于X和Y这两个时间独⽴变量的联合观测数据,利⽤某些模型在X→Y和Y→X⽅向上的证据不对称性,就可以确定变量的因果关系。主要的⽅法基于算法信息理论模型和噪声模型。
算法信息模型
⽐较两个同时输出 X 和 Y 的程序:
•通过未压缩的Y存储Y和X的压缩型
•通过未压缩的X存储X和Y的压缩型
最短的此类程序表明,未压缩的存储变量更有可能引起计算变量。
噪声模型
在模型中引⼊⼀个独⽴的噪声项,以对⽐两个⽅向的证据。下⾯是⼀些假设 Y → X 且具有噪声 E 的噪声模型:
•加性噪声 Additive noise:Y=F(X)+E
•线性噪声 Linear noise:Y=pX+qE
•⾮线性后置 Post-non-linear:Y=G(F(X)+E)
•异⽅差噪声 Heteroskedastic noise:Y=F(X)+E.G(X)
•功能性噪声 Functional noise:Y=F(X,E)
上述模型均基于以下假设:
•Y 不存在其他原因
•X 和 E 不存在共同的原因
•原因的分布独⽴于因果机制
在直观层⾯很容易想到,从联合分布 P(起因 , 结果)到 P(起因)* P(结果 | 起因)的拆分产⽣的模型,其总复杂度低于从 P(起因 , 结果)到 P(结果)* P(起因 | 结果)的拆分。尽管“复杂度”的概念在直觉上很吸引⼈,但对于应该如何精确定义它却并不显⽽易见。另⼀组不同的⽅法尝试从⼤量标记数据中发现因果的“⾜迹”,从⽽能预测出更灵活的因果关系。
四、因果推断在统计学和经济学领域
在统计学和经济学中,因果关系通常通过回归分析来检验。有⼏种⽅法可以⽤来从假设的相关性中鉴别出真实的因果关系:
第⼀,经济学家根据经济理论(如计量经济学)构建回归模型,从⽽确定因果关系的⽅向。例如,如果研究降⾬与商品未来价格之间的依赖关系,那么理论表明,降⾬可以影响价格,但未来价格不能改变降⾬量。
第⼆,⼯具变量 instrumental variables(IV)技术可以通过引⼊其他已知不受因变量影响的⼯具变量,来消除任何逆向因果关系。
第三,经济学根据时间先后,来选择合适的模型。由于偏相关(partial correlations)是对称的,不能仅仅基于相关性来确定因果关系的⽅向。基于因果关系的概率观点,经济学家假设,在时间上原因必须先于其结果。所以经济学家使⽤较早发⽣的现象作为⾃变量,并开发适⽤于时间序列分析的因果关系计量检验⽅法(例如,格兰杰因果检验 Granger-causality tests)。
第四,有些⽅法包括了其他回归因素,以确保混淆变量不会导致回归项出现明显的虚假。通过使⽤⼤规模样本和交叉验证,来检查在回归中未使⽤的数据之间是否保持了相关,这样可以排除由巧合造成⽽⾮反映实际内在依赖的相关性。但在遭受多重共线性问题困扰的领域,如宏观经济学,原则上不可能包括所有混淆因素,因此计量经济模型容易出现共因谬误 common-cause fallacy。
近年来,以设计为基础的计量经济学活动已经推⼴⾄使⽤⾃然实验和准实验研究设计来解决虚假相关 spurious correlations 问题。
五、因果推断在社会科学领域
社会科学越来越倾向⽤定量框架来评估因果关系。许多框架被认为是提供更严格的社会科学⽅法的⼿段。1994
年,Gary King、Robert Keohane 和Sidney Verba 合著的《设计社会学问卷》对政治科学产⽣了重⼤影响。King、Keohane和Verba(通常缩写为 KKV)建议研究⼈员同时采⽤定量和定性⽅法,采⽤统计推断的语⾔,以便更清楚地了解他们感兴趣的主题和分析单位。定量⽅法的⽀持者也越来越多地采⽤ Donald Rubin 开发的潜在结果框架作为推断因果关系的标准。
适当应⽤定量⽅法来推断因果关系的相关争论导致了对研究可重复性的更多关注。对⼴泛使⽤的⽅法持批评态度的⼈认为,研究⼈员已经有技术性地“篡改” P 值,在虚假相关的基础上发表⽂章。
为了避免这种情况的发⽣,⼀些研究⼈员主张在进⾏研究之前预注册 preregister 他们的研究设计,这样他们就不会⽆意中过分强调⼀项不可复制的发现。这项发现并⾮最初的调查对象,却在数据分析过程中具有统计学意义。社会科学内部关于⽅法论和可重复性的争论有时是激烈的。
尽管在潜在结果框架中⼤部分重点仍然放在统计推论上,但社会科学⽅法学家已经开发出使⽤定性和定量⽅法进⾏因果推断的新⼯具,有时被称为混合⽅法。混合⽅法的持者认为它更适合不同主体的研究。社会学家 Herbert Smith 和政治学家 James Mahoney 、 Gary Goertz 引⽤了统计学家 Paul Holland 的观察结果,Paul Holland 在1986年发表了⼀篇名为《统计学和因果推断》的⽂章,认为统计推断更适合于评估“原因的影响”(effects of causes),⽽不是“影响的原因”(causes of effects)。
因果科学与 Causal AI 系列读书会 | 众包出书
Judea Pearl 认为当下正在进⾏⼀场改变数据科学的新⾰命 --- ”因果⾰命“。因果⾰命和以数据为中⼼的第⼀次数据科学⾰命,也就是⼤数据⾰命其不同之处在于,它以科学为中⼼,涉及从数据到政策、可解释性、机制的泛化,再到⼀些社会科学中的归因和公平性问题,甚⾄哲学中的创造性和⾃由意志。
gary事件是什么
于此,我们组织了关于因果科学与 Causal AI 的系列读书会,研读硬核论⽂书籍,分享学界前沿成果,并已经进⾏了许
于此,我们组织了关于因果科学与 Causal AI 的系列读书会,研读硬核论⽂书籍,分享学界前沿成果,并已经进⾏了许多次的论⽂研讨。
点击图⽚即可查看更多读书会有关信息.....
课程推荐
如何将因果推理与机器学习相结合,开发可解释⼈⼯智能(XAI)算法,是迈向⼈⼯智能2.0的关键步骤之⼀。为此,我们希望可以通过因果推理的专题读书会,来试图到回答上述问题的答案。
书籍推荐
《为什么:关于因果关系的新科学》
在本书中,⼈⼯智能领域的权威专家 Judea Pearl 及其同事领导的因果关系⾰命突破多年的迷雾,厘清了知识的本质,确⽴了因果关系研究在科学探索中的核⼼地位。
点击图⽚即可查看更多《为什么:关于因果关系的新科学》有关信息.....
七、百科项⽬志愿者招募
以上内容都是我们做这项⽬的起点,作为来⾃不同学科和领域的志愿者,我们建⽴起⼀个有效的百科团队,分配有审校、翻译、编辑、宣传等⼯作。我们秉持:知识从我⽽来,问题到我为⽌的信念,认真负责编撰每⼀个词条。
在这⾥从复杂性知识出发与伙伴同⾏,同时我们希望有更多志愿者加⼊这个团队,使百科词条内容得到扩充,并为每位志愿者提供相应奖励与资源,建⽴个⼈主页与贡献记录,使其能够继续探索复杂世界。
编辑:曾祥轩