因果推理初探（6）——干预工具（下）

远望知识的海洋

在上一节我们继续学习了有关干预的知识，具体来说，学习了三种重要的干预工具：后门调整、前门调整、逆概率加权。在本节中，我们从线性系统开始入手，介绍变量连续时的因果效应如何表达，并学习中介、工具变量等概念。

路径系数&回归系数

之前介绍的模型中变量都是二值的，现实中的很多事件变量都是连续的。比如我们想知道课外辅导和考试成绩的关系、上网学慕课和未来找工作的关系等等。那么一种最简单的建模方法就是用线性系统建模。具体来说，变量之间的关系都是线性的。而之前使用概率来表示变量之间依赖关系的形式就要相应的变成期望的形式了。

比如之前表示，以 Z 为条件， Y 和 X 是相互独立的，我们写作

P(Y|X,Z)=P(Y|Z)\\ 而对于连续变量，我们就写作

E[Y|X,Z]=E[Y|Z]\\ 条件期望也就可以写成线性的形式

E[Y|X_1 = x_1, X_2 = x_2, … , X_n = x_n] = r_0 + r_1x_1 + r_2x_2 + · · · + r_nx_n

其中 r_1, r_2, … , r_n 被称为回归系数（或者相关系数）。这些回归系数 r_i 的值与 x_i 的值无关，只与谁是回归因子有关。换句话说，无论X_i=1 、 X_i=2 还是 X_i=312.3 ，只要我们选择了 X_i 作为回归因子，那么回归系数就是不变的。

回归系数是表示变量之间的统计特征，也就是我们站在因果关系之梯第一层级用观测数据归纳出的，它只是对客观事实的描述， y = r_1x + r_2z + 不能说明 X 和 Z 是 Y 的因。与回归系数不同，路径系数则反映的是变量之间的因果关系或者结构关系，是因果关系之梯第二层级的信息。比如我们定义 Y = 3X + U 这就说明 X 和 Y 之间有因果关系路径X → Y ，且路径系数为3。每一个路径系数都表示一条因果关系。在《Causal Inference in Statistics》一书中，路径系数用 \alpha, \beta 来表示，而回归系数用 r_1,r_2 等等来表示。

考虑下图中的图模型。其中 a,b,c,d,e 分别标出了五条因果关系路径的路径系数。

假设我们想要计算 Z 对 Y 的因果效应的总和。那么计算的方式就是将每一条因果路径上的因果系数与对应变量相乘，然后对所有非后门路径求和。

\begin{align} Y &= dZ + eW + U_Y\\&= dZ + e(bX + cZ) + U_Y + eU_W\\ &= (d + ec)Z + ebX + U_Y + eU_W\\ \end{align}\\ 这表明对 Z 每增加一个单位， Y 将随之增加 d+ec 个单位。比较一下， d+ec 、 eb 其实就是回归系数，是 Z 对 Y 、X 对 Y 的总效应。而 d 和 e 分别是 Z 对 Y 、 W 对 Y 的直接效应，也是路径系数。

那么应该如何计算两个变量之间的直接效应呢，比如如何计算下图（左）中， X 对 Y 的直接因果效应 \alpha ？

方法如下：

移除 X 与 Y 之间的箭头（如果没有直接相连的箭头，那就说明 \alpha=0 ）。
得到的新图称为 G_\alpha ，如果 G_\alpha 中有一组变量 Z 能够将 X 和 Y d分离，那么我们就可以求出 Y 关于 X 和 Z 的回归模型。

如图2（左）的有向无环图，我们去掉 X\rightarrow Y 的箭头，得到右边的有向无环图，在右图中， W 作为中间节点d分离了 X 和 Y 。因此我们建立 Y 关于 X 和 W 的回归模型：

Y=r_XX+r_WW+\epsilon\\ 其中 r_X 就是 X 对 Y 的直接因果效应。然后我们只要观测出回归模型中这些变量的值就可以估计出参数的值了。

工具变量

但假如，去掉箭头以后，没有变量能将X 和 Y d分离，又怎么办呢？此时可以引入工具变量（Instrumental variable）。

如图3所示的情况中， X 和 Y 之间只有一条路径 \alpha ，还有一个未观测的共因（虚线表示）。此时，去掉 X 和 Y 之间的箭头后，无法找到能够d分离 X 和 Y 的变量（集）了。此时的措施是找到一个工具变量 Z 来求出 \alpha 。如果一个变量在新的图G_\alpha 中与 Y 是d分离，但是与 X 是d相连的，那么这个变量就可以被作为工具变量。然后我们分别建立 Y 关于 Z 、 X 关于 Z 的回归关系： y = r_1z + 、 x = r_2z + 。如图3所示，我们不难得到：

\beta=r_2\\ \alpha \beta = r_1\\

这样一来就很容易得到

\alpha=r_1/r_2\\

要注意的点是，使用以上公式的前提是， X 和 Y 之间的未观测的共因 U 与 Z 之间没有箭头连接，这样 Z 和 X 之间没有混杂。否则是不能使用以上方法的。

中介

在本节最后，初步学习有关中介（mediation）的概念。在后续学习反事实推理时，还会返回有关中介的讨论。

在不少公司录取求职者的时候都存在性别歧视现象。我们想知道一家公司在雇佣行为 Y 中是否存在对性别 X 的歧视，以及在多大程度上存在性别歧视。但同时我们要知道，性别也在其他方面影响录取的结果：比如，女性通常或多或少比男性更有可能进入某个特定领域，或者在该领域比男性更容易获得更高的学位。因此，性别也可能通过学历 Z 这一中介变量对招聘产生间接影响。

此时，学历就是一个中介变量。首先，性别直接影响录取结果，性别\rightarrow 录取结果；其次，性别通过学历这个中介变量来间接影响录取结果，性别\rightarrow 学历\rightarrow 录取结果。为了找到性别对录取结果的直接效应，我们需要以某种方式消除中介变量（此时就是混杂因子）的影响，也即保持学历不变，然后衡量性别与录取结果之间的关系：由于学历不变，录取结果上的任何变化都只能由性别决定。这是通过以中介变量为条件来实现的。因此，如果 P(录取|女性，高学历) 与 P(录取|男性，高学历) 是不同的，那么就说明性别对录取结果有直接的影响。

这一关系可如图4（左）的因果图表示。但是还有一种可能的情况是，中介变量和结果变量具有混杂因子。比如，收入 I 就是一个可能的混杂因子：高收入的人更有可能上过大学，也更有可能拥有能帮助他们找到工作的人脉，从而也能有被录取的几率。这时候，收入就成为学历和录取结果的混杂因子，如图4（右）所示。

这种情况就更加复杂了。此时，性别与录取结果之间其实是有三条路径的。一是直接路径性别\rightarrow 录取结果，二是间接路径性别\rightarrow 学历\rightarrow 录取结果，第三还有一条间接路径：性别→学历←收入→录取结果。

此时，如果不以学历为条件，性别→学历→录取结果这条间接路径是通的。但如果以学历为条件，就等于是以对撞子为条件，这会打开对撞子所在的路径。因此，间接路径性别→学历←收入→录取结果是通的，而性别→学历→录取结果则阻断了。所以无论是否以学历为条件，都无法得到性别和录取结果之间的直接因果效应。

此时采用的方法是：干预。我们不以学历为条件，而是固定学历。那么性别与学历之间的箭头以及收入与学历之间的箭头就消失了。所以对于任意三个变量 X 、 Y 、 Z ，如果 Z 是 X 和 Y 的中介变量，那么 Y 的受控直接效应（Controlled Directed Effect, CDE）可计算如下：

CDE = P(Y = y|do(X = x), do(Z = z)) − P(Y = y|do(X = x′), do(Z = z))\tag{1} 需要注意的是，对不同的 Z 的取值，CDE是不同的。所以要完整计算直接因果效应的话，需要对每一个 Z 可取的值都计算。

现在公式(1)中出现了两个do运算，还需要通过后门调整前门调整之类的方法将它们都去掉。首先， X 和 Y 之间没有后门路径（注意 X\rightarrow Z\rightarrow Y 不叫后门路径，后门路径必须是箭头指向 X 的），所以可以去掉对X 的do运算。这样，(1)式可以变成：

\begin{align} CDE &= P(Y = y|do(X = x), do(Z = z)) − P(Y = y|do(X = x′), do(Z = z))\\&=\color{red}{P(Y = y|X = x, do(Z = z)) − P(Y = y|X = x′, do(Z = z))} \end{align}

然后再看 Z ，对于 Z\rightarrow Y 来说是有两条后门路径的。一条是 Z\leftarrow X\rightarrow Y ，由于已经以 X 为条件了，所以这条路径已经被阻断了。还有一条是 Z\leftarrow I\rightarrow Y ，这条路径，如果以 I 为条件，也会被阻断。根据后门调整公式：

\begin{align} CDE &= P(Y = y|do(X = x), do(Z = z)) − P(Y = y|do(X = x′), do(Z = z))\\&=P(Y = y|X = x, do(Z = z)) − P(Y = y|X = x′, do(Z = z))\\ &=\color{red}{\sum_{i}^{}{[P(Y = y|X = x, Z = z, I = i) − P(Y = y|X = x′ , Z = z, I = i)]P(I = i)}} \end{align}

最后得到的这个公式就完全没有do运算了。总结来说，当以下两个条件都满足时，以 Z 为中介变量，可以计算出变量 X 对变量 Y 的CDE：

存在一组变量集 S_1 能够阻断 Z\rightarrow Y 的所有后门路径。
当去掉指向 Z 的所有箭头后，存在一组变量集 S_2 能够阻断 X\rightarrow Y 的所有后门路径。

本节主要内容来源于《Causal Inference in Statistics: A Primer》^[1]一书第三章，更深入的相关内容也可参考《Causality: Models, Reasoning and Inference》^[2]。

参考

^Judea Pearl, Madelyn Glymour, and Nicholas Jewell, "Causal Inference in Statistics: A Primer",Wiley, 2016
^ Judea Pearl, "Causality: Models, Reasoning and Inference", Cambridge University Press, 2009

编辑于 2021-11-24 17:25

因果推理

人工智能

机器学习

因果推理初探（6）——干预工具（下）

路径系数&回归系数

工具变量

中介

参考

文章被以下专栏收录

因果关系之梯

财经夜谈