美国 Baylor University 经济学教授 Scott Cunningham 认为,因果推理是利用理论和对制度细节的深入了解,来估计事件和选择对特定利益结果的影响。本推文介绍的便是 Scott Cunningham 于 2021 年初上市的书籍《Causal Inference: The Mixtape》 (出版社:Yale University Press)。

书  名:Causal Inference: The Mixtape

作  者:Scott Cunningham 出版社:Yale University Press

这本书通俗易懂地介绍了识别社会科学中的因果关系的最新方法,是一本很实用的学习因果推理的书籍。对于整体写作风格,这本书在理论层面言简意赅,更多强调了方法应用。作者通过列举许多社会科学相关的因果推理的案例和参考论文,对实际案例的细节进行了详细的分析,并且展示了分析案例所借助的 Stata 和 R 软件具体操作程序。

对于基本内容,作者在回顾基本的因果推理概念、概率与回归概念的基础上,介绍了有向无环图 (Directed Acyclic Graphs,DAG)、潜在结果因果模型 (Potential Outcomes Causal Model)、匹配 (Matching) 以及断点回归 (Regression Discontinuity) 等因果推理工具和因果识别策略。其中,DAG 几乎出现在书籍中的每一章节。

相比于 2008 年出版的《Counterfactuals and Causal Inference: Methods and Principles for Social Research》,这本书不仅涵盖了很多案例,关注了工具变量法、断点回归法等准实验方法,还包括了经济学者目前关注的合成控制法。此外,书中提供了案例分析所需的数据、代码内容。因而,本科生、硕士生和刚入学的博士生如果想了解因果推理和学习诸如合成控制法这类的最新方法,可以参考这本书。 

2. 内容介绍

首先,作者介绍了有关因果推理、概率与回归相关概念和理论,为新接触因果推理的读者更好地学习打好基础。

第一章引言作者通过识别需求的价格弹性等一系列案例,介绍了因果推理的含义、如何区分相关性与因果关系等基本内容;

第二章概率与回归回顾中,从基础的概率理论出发,回顾了随机过程、样本空间、统计独立性、事件和条件概率以及期望值、方差等统计定义。在此基础上,介绍了普通最小二乘法、方差分析理论、稳健标准误等统计数据分析的基本方法。 其次,为更好地识别因果关系,第三章至第五章介绍了因果推理的工具。

第三章引入有向无环图 (DAG),这是一个有助于澄清变量之间的因果关系的强大的工具,讨论了后门标准和对撞机偏差两个概念。详细阅读这一章对后续阅读有很大的帮助; 第四章讨论了潜在结果因果模型。因果效应可被定义为实际发生状态和反事实状态之间的比较,潜在结果表示法用反事实表示因果关系。书中定义了各种类型的因果效应:平均处理效应 (ATE)、干预组的平均处理效应 (ATT)、控制组的平均处理效应 (ATU)等。潜在结果因果模型成立依赖两个关键假设:一是强调被干预对象相互独立;二是在一定条件下,分配机制不会对潜在结果产生影响。潜在结果是由分配机制决定的,也十分强调匹配和倾向值分析对因果推理的重要性; 第五章继续描述匹配和分配问题。贯穿这一章的概念是有条件独立假设 (CIA),通过学生分配问题表明处理分配是有条件的随机。当样本较少时,分配缺乏足够的数据,因而使得匹配和倾向值分析显得尤为重要。精确匹配和近似匹配均是因果推理的重要组成部分,倾向得分匹配作为一个工具,以使不同组别具有可比性。 最后,在剩下的第六章至第十章,此书理论结合案例,分别介绍了识别因果推理的策略,包括断点回归、工具变量、面板数据、差分、合成控制五个方法。

断点回归 (Regression Discontinuity) 的设计围绕核心变量、临界值、处理组分配和结果本身之间的关系。精确断点回归是其中一种方法,使用一个连续的分数,通过任意选择一个临界值来分配处理组和控制组,比较高于和低于临界值的人来估计一种特定的平均值。作者借助一个案例 “复制一个流行的设计:接近的选举” 进行具体说明;

工具变量 (Instrumental Variables) 设计可能是有史以来最重要的研究设计之一。作者从显示一系列因果效应的 DAG 开始进行分析,认为其包含了理解工具变量策略所需的所有信息。工具变量法通常用于解决遗漏变量偏差、测量误差等问题,两阶段最小二乘法是一个比较常用的方法,书中提供了一些数据,帮助读者更好地理解如何在实际数据中实现两阶段最小二乘法。与断点回归不同,工具变量法的识别假设有 5 个。这使得使用工具变量法时通常出现弱工具变量等问题,因而研究者很难找到满足所有 5 个条件的工具变量;

面板数据 (Panel Data) 包含不同单位时间内重复测量的纵向数据。固定效应是一种估计因果效应有用的方法。只要处理和结果随时间变化,并且存在严格的外生性,那么固定效应将消除任何和所有未观测和观测的处理变量相关的不随时间变化的协变量。但是,这种方法不能处理随时间变化的、未观测到的异质性,而且当存在强反向因果路径时,面板方法是有偏的。作者通过回顾描述面板数据的 DAG 情况下,讨论一篇论文,然后在 R 和 Stata 中进行一个数据集的练习,很好的解释了上述问题;

差分 (Difference-In-Differences) 已经成为定量社会科学中最受欢迎的研究设计之一。作者以简单的形式(同时处理一组单位)和更常见的形式(即在不同时间点处理一组单位)来解释差分方法。这一章的重点是确定估计处理效应所需的假设,包括通过事件研究提供平行趋势证据、安慰剂的重要性、有时间差异的双向固定效应等;

合成控制 (Synthetic Control) 目前是一个活跃的研究领域,人们期望通过合成控制方法进行大量的证伪联系。使用合成控制法进行比较案例研究,必须通过基于安慰剂的推断找到确切的 值,检查预处理的匹配,调查用于匹配的协变量的平衡性,并通过安慰剂估计检验模型的有效性。书中通过 “监狱建设和黑人男性监狱” 的案例,展示了如何在 Stata 中估计合成控制方法。但是,还有很多相关问题书中没有给出解决方法。

以下是核心内容的基本架构,方便大家更好地了解这本书:

3. 总结

因果推理是一个重要且有趣的领域,越来越受到社会科学研究者的关注。 潜在结果因果模式提供了一种直观的方式来思考因果效应,该模型在理解使用异质的准实验研究设计来确定因果关系所需的假设方法非常有效; 有向无环图对项目的设计阶段非常有用,在理论模型和对某些现象的理解以及识别所关心的因果效应的策略方面都受到关注; 其它的识别因果效应的策略是目前微观经济学中最常见的。 但是,这本书省略了边际效应、部分标识等内容。

成为VIP会员查看完整内容
0
28

相关内容

We investigate causal inference in the asymptotic regime as the number of variables approaches infinity using an information-theoretic framework. We define structural entropy of a causal model in terms of its description complexity measured by the logarithmic growth rate, measured in bits, of all directed acyclic graphs (DAGs), parameterized by the edge density d. Structural entropy yields non-intuitive predictions. If we randomly sample a DAG from the space of all models, in the range d = (0, 1/8), almost surely the model is a two-layer DAG! Semantic entropy quantifies the reduction in entropy where edges are removed by causal intervention. Semantic causal entropy is defined as the f-divergence between the observational distribution and the interventional distribution P', where a subset S of edges are intervened on to determine their causal influence. We compare the decomposability properties of semantic entropy for different choices of f-divergences, including KL-divergence, squared Hellinger distance, and total variation distance. We apply our framework to generalize a recently popular bipartite experimental design for studying causal inference on large datasets, where interventions are carried out on one set of variables (e.g., power plants, items in an online store), but outcomes are measured on a disjoint set of variables (residents near power plants, or shoppers). We generalize bipartite designs to k-partite designs, and describe an optimization framework for finding the optimal k-level DAG architecture for any value of d \in (0, 1/2). As edge density increases, a sequence of phase transitions occur over disjoint intervals of d, with deeper DAG architectures emerging for larger values of d. We also give a quantitative bound on the number of samples needed to reliably test for average causal influence for a k-partite design.

0
0
下载
预览

在这个反事实和因果推理的第二版中,讲述了反事实方法的基本特征,观察数据分析来自社会,人口统计和健康科学的例子。首先介绍了使用潜在结果模型和因果图的替代估计技术; 在此之后,条件调节技术,如匹配和回归,从潜在结果的角度提出。在没有观察到重要的因果公开决定因素的研究情景中,然后提出了替代技术,如工具变量估计、纵向方法和通过因果机制的估计。本书强调了因果效应异质性的重要性,并讨论了通过机制进行深度因果解释的必要性。

在过去的三十年里,一个反事实的因果模型已经被开发出来,一个统一的框架起诉的因果问题现在是可用的。通过这本书,我们的目标是说服更多的社会科学家将这个模型应用到社会科学的核心经验问题上。

在第2章介绍了反事实模型的主要部分之后,我们将在本书的第2部分介绍因果效应估计的条件反射技术。在第三章中,我们将使用因果图来展示一个基本的条件作用框架。然后,在第4章和第5章,我们将解释匹配和回归估计量,说明它们是更一般条件作用方法的互补变量。在这本书的第三部分,我们将从因果效应估计的“容易”到“困难”的实例进行转换,对于这种情况,简单的条件作用是不够的,因为决定因果公开的相关变量没有被观察到。在第6章介绍了一般性困境之后,我们将在第7章至第9章中介绍工具变量技术、基于机制的因果效应估计,以及使用超时数据来估计因果效应。最后,在第十章中,我们将总结一些反对反事实模型的意见。在本书的结尾,我们将对因果调研的互补模式进行广泛的讨论,这些模式包括观察社会科学中的因果效应估计。在某种程度上,因为详细的目录已经给出了我们将在其余章节中呈现的材料的准确描述,我们在这里不提供一套详细的章节摘要。相反,我们将用三个因果图和它们所提出的因果效应估计策略来结束这一介绍性的章节。这些图表使我们能够预示许多具体的因果效应估计策略,我们将在后面介绍这些策略。因为本章的其余内容将在以后重新介绍和更全面地解释(主要在第3、6和8章),所以现在可以跳过它,没有任何后果。然而,我们在教学这一材料的经验表明,在考虑观察数据分析的反事实框架的细节之前,许多读者可能受益于对基本估计技术的快速图形介绍。

作者姓名: Stephen Morgan Christopher Winship

作者机构: 约翰霍普金斯大学 哈佛大学

图书目录 一、社会科学中的因果关系与实证研究 1 简介 二、反事实、潜在结果和因果图 2 反事实和潜在结果模型 3 因果图 三、通过对观察到的变量进行条件调节以阻止后门路径来估计因果效应 4 因果暴露模型和识别标准 5 因果效应的匹配估计量 6 因果效应的回归估计 7 因果效应的加权回归估计 四、估计后门调节无效时的因果效应 8 自我选择、异质性和因果图 9 因果效应的工具变量估计量 10 机制与因果解释 11 重复观察和因果效应估计 五、当因果效应不是由可观测点识别时的V估计 12 分布假设、集合识别和敏感性分析 六、结论 13 反事实与观察社会科学实证研究的未来

成为VIP会员查看完整内容
1
36

【导读】对因果推理发展的研究广泛地集中于实现两个目标: 理解因果推理的起源,以及检验因果推理如何随着发展而变化。41页因果推理发展综述《The Development of Causal Reasoning》回顾了旨在实现这两个目标的证据和理论。

41页因果推理发展综述《The Development of Causal Reasoning》回顾了因果推理发展相关的研究,综述链接:

综述摘要 对因果推理发展的研究广泛地集中于实现两个目标: 理解因果推理的起源,以及检验因果推理如何随着发展而变化。本书回顾了旨在实现这两个目标的证据和理论。在第一节中,它着重于探索世界上认识因果事件的可能先例的研究,回顾早期因果推理的三种不同机制的证据:物理启动事件,行动者及其行动,以及共变信息。本书的第二部分考察了年龄稍大的孩子如何了解特定的因果关系的问题。它着重于统计证据的模式在引导学习因果结构方面的作用,表明即使是非常年幼的儿童也利用强烈的数据模式的归纳偏差来提供他们关于因果事件的推论,并讨论儿童的自发游戏如何支持因果学习。

综述内容 因果关系在人类认知中扮演着重要的角色,并且长期以来一直是许多发展研究人员感兴趣的话题——因果推理被认为是生理、心理和生物世界早期学习的一个中心方面。此外,因果推理在早期社会发展的许多理论中都有涉及,包括心智和道德的概念和理论的发展。因果表征也是许多语言意义理论的中心,也是早期语言习得研究的一个感兴趣的领域。最后,研究者研究了因果学习在解释发展中的作用。

对因果推理发展的研究广泛地集中于实现两个目标: 理解因果推理的起源,以及因果推理是如何随着发展而变化的。因此,该书回顾了旨在实现这两个目标的证据和理论。在第一部分中,该书主要探讨认识世界上因果事件的可能先例的研究。早期关于可能的因果关系的概念与更广泛的认知事件因果关系的抽象框架有什么关系? 该书回顾了早期因果推理中三种不同机制的证据——物理启动事件、主体及其行为和共变信息——并讨论了如何将这些机制整合到开发中。本书的第二部分主要关注年龄稍大的孩子如何了解特定的因果关系。想当然地认为孩子们认识到一个事件涉及因果关系,那么孩子们是如何了解一个系统中因果关系的具体力量和性质的呢?本书关注统计证据模式在引导学习因果结构中的作用,并指出证据表明儿童将这些证据与他们发展中的归纳偏见结合在一起。

目录:

  • 因果推理的起源
    • 因果推理产生于运动事件的表征
    • 因果推理产生于行为人及其行为的表征
    • 从协变信息进行因果推理
    • 协调不同的账目
  • 在幼儿时期学习特定的因果关系
    • 领域特定的机制信息
    • 统计学习
    • 协调统计方法和领域特定方法
    • 领域知识之外的归纳约束
    • 儿童的因果推理的讨论
  • 因果探索与发现
  • 一般结论和开放问题
成为VIP会员查看完整内容
0
72

Causal inference is a critical research topic across many domains, such as statistics, computer science, education, public policy and economics, for decades. Nowadays, estimating causal effect from observational data has become an appealing research direction owing to the large amount of available data and low budget requirement, compared with randomized controlled trials. Embraced with the rapidly developed machine learning area, various causal effect estimation methods for observational data have sprung up. In this survey, we provide a comprehensive review of causal inference methods under the potential outcome framework, one of the well known causal inference framework. The methods are divided into two categories depending on whether they require all three assumptions of the potential outcome framework or not. For each category, both the traditional statistical methods and the recent machine learning enhanced methods are discussed and compared. The plausible applications of these methods are also presented, including the applications in advertising, recommendation, medicine and so on. Moreover, the commonly used benchmark datasets as well as the open-source codes are also summarized, which facilitate researchers and practitioners to explore, evaluate and apply the causal inference methods.

0
77
下载
预览

题目: Causal Inference and Stable Learning

简介:

在一个常见的机器学习问题中,使用一个根据训练数据集估计的模型,根据观察到的特征来预测未来的结果值。当测试数据和训练数据来自相同的分布时,许多学习算法被提出并证明是成功的。然而,对于给定的训练数据分布,性能最好的模型通常利用特征之间微妙的统计关系,这使得它们在应用于测试数据时更容易出现预测错误,因为测试数据的分布与训练数据的分布不同。对于学术研究和实际应用来说,如何建立稳定、可靠的学习模型是至关重要的。因果推理是一种强大的统计建模工具,用于解释和稳定的学习。因果推理是指基于某一效应发生的条件,对某一因果关系做出结论的过程。在本教程中,我们将重点讨论因果推理和稳定学习,旨在从观察数据中探索因果知识,以提高机器学习算法的可解释性和稳定性。首先,我们将介绍因果推理,并介绍一些最近的数据驱动的方法来估计因果效应的观测数据,特别是在高维设置。摘要为了弥补因果推理与机器学习在稳定学习上的差距,我们首先给出了学习算法的稳定性和鲁棒性的定义,然后介绍了一些最近出现的稳定学习算法,以提高预测的稳定性和可解释性。最后,我们将讨论稳定学习的应用和未来方向,并为稳定学习提供基准。

邀请嘉宾:

张潼,香港科技大学计算机科学与数学教授。此前,他是罗格斯大学(Rutgers university)教授,曾在IBM、雅虎(Yahoo)、百度和腾讯(Tencent)工作。张潼的研究兴趣包括机器学习算法和理论、大数据统计方法及其应用。他是ASA和IMS的研究员,曾在主要机器学习期刊的编委会和顶级机器学习会议的项目委员会任职。张潼在康奈尔大学获得数学和计算机科学学士学位,在斯坦福大学获得计算机科学博士学位。

崔鹏,清华大学计算机系长聘副教授,博士生导师。2010年于清华大学计算机系获得博士学位。研究兴趣包括社会动力学建模、大规模网络表征学习以及大数据驱动的因果推理和稳定预测。近5年在数据挖掘及人工智能领域高水平会议和期刊发表论文60余篇,曾5次获得顶级国际会议或期刊论文奖,并先后两次入选数据挖掘领域顶级国际会议KDD最佳论文专刊。目前担任IEEE TKDE、ACM TOMM、ACM TIST、IEEE TBD等国际期刊编委。曾获得国家自然科学二等奖、教育部自然科学一等奖、电子学会自然科学一等奖、CCF-IEEE CS青年科学家奖、ACM中国新星奖。入选中组部万人计划青年拔尖人才,并当选中国科协全国委员会委员。

成为VIP会员查看完整内容
0
117
小贴士
相关主题
相关论文
Asymptotic Causal Inference
Sridhar Mahadevan
0+阅读 · 9月20日
Hugo Gimbert,Claire Mathieu,Simon Mauras
0+阅读 · 9月19日
Andrew Ying,Wang Miao,Xu Shi,Eric J. Tchetgen Tchetgen
0+阅读 · 9月18日
Torsten Hoefler,Dan Alistarh,Tal Ben-Nun,Nikoli Dryden,Alexandra Peste
11+阅读 · 1月31日
Sander Beckers
4+阅读 · 2020年12月10日
Takeshi Teshima,Issei Sato,Masashi Sugiyama
3+阅读 · 2020年8月19日
Liuyi Yao,Zhixuan Chu,Sheng Li,Yaliang Li,Jing Gao,Aidong Zhang
77+阅读 · 2020年2月5日
KiJung Yoon,Renjie Liao,Yuwen Xiong,Lisa Zhang,Ethan Fetaya,Raquel Urtasun,Richard Zemel,Xaq Pitkow
3+阅读 · 2018年5月25日
Honggang Zhou,Yunchun Li,Hailong Yang,Wei Li,Jie Jia
3+阅读 · 2018年4月26日
Chris Cremer,Xuechen Li,David Duvenaud
3+阅读 · 2018年1月10日
Top