因果效应详解




1.因果效应

1.1 潜在结果、观测结果、反事实结果

例: 考察个体i上大学和上高中,对收入是否有影响

Y_i=\begin{cases} Y_{1i},&if\ D_i=1\\ Y_{0i},&if\ D_i=0 \end{cases}

1.1.1 潜在结果

不管是上大学还是上高中,潜在结果不发生变化,都是两种

当上大学时,即D_i=1, 收入为Y_{1i}
当上高中时,即D_i=0, 收入为Y_{0i}

1.1.2 观测结果和反事实结果

①假设个体接受的是大学教育,D_i=1
上大学的情况可观测,Y_{1i}是事实结果(观测结果);上高中的情况不可观测,Y_{0i}称为反事实结果。

②假设个体接受的是高中教育,D_i=0
上高中的情况可观测,Y_{0i}事实结果(观测结果); 上大学的情况不可观测,Y_{1i}称为反事实结果。

1.2 个体因果效应

1.2.1 公式

\tau_i=Y_{1i}-Y_{0i} \quad i=1,...,N

对于个体i,某项干预的因果效应是两种状态下潜在结果的比较

例中,上大学对个体i收入的因果效应,为个体i上大学的收入减去其上高中的收入。从而得到上大学对收入的影响。

1.2.2 两点说明

①因果效应的定义仅依赖于两个潜在结果,与哪一个潜在结果被观测到没有关系

②因果效应是干预后同一时间、同一物理个体潜在结果的比较。

1.2.3 核心

因果效应中两个潜在结果,只能观测到其中一个,另一个反事实结果无法观测。

因果推断的核心就是估计出反事实结果。

要想估计出反事实结果,必须用到多个个体。因此,我们关注总体因果效应。

1.3. 总体因果效应

i为个体, D_i为干预状态,Y_i为观测结果,Y_{0i}Y_{1i}是潜在结果,加粗部分是反事实结果。

iD_iY_iY_{0i}Y_{1i}Y_{1i}-Y_{0i}

1.3.1 ATE(总体平均因果效应)

  • 定义

所有个体因果效应的平均值

  • 公式
    \tau_{ATE}=E[Y_{1i}-Y_{0i}]
  • 计算
    \begin{align} \tau_{ATE} & =\frac{1}{5}\cdot\sum_{i=1}^5(Y_{1i}-Y_{0i})\notag \\ &=\frac{1}{5}\cdot[(6-5)+(7-6)+(7-5.5)+(6-5)+(7-6)]\notag \\ &=1.1 \notag \\ \end{align}

1.3.2 ATT(干预组平均因果效应)

  • 定义
    受到干预影响的个体因果效应的平均值(干预组)
  • 公式
    \tau_{ATT}=E[(Y_{1i}-Y_{0i})|D_i=1]
  • 计算
    \begin{align} \tau_{ATT}&=\frac{1}{3}\cdot\sum[(Y_{1i}|D=1)-(Y_{0i}|D=1)]\notag \\ &=\frac{1}{3}\cdot[(7-5.5)+(6-5)+(7-6)] \notag \\ &=1.17 \notag \end{align}

1.3.3 ATC(控制组平均因果效应)

  • 定义
    没有受到干预影响的个体因果效应的平均值(控制组)
  • 公式
    \tau_{ATC}=E[(Y_{1i}-Y_{0i})|D_i=0]
  • 计算
    \begin{align} \tau_{ATC}&=\frac{1}{2}\cdot\sum[(Y_{1i}|D_i=0)-(Y_{0i}|D_i=0)]\notag \\ &=\frac{1}{2}\cdot[(6-5)+(7-6)] \notag \\ &=1 \notag \\ \end{align}

上面例子中,假设我们已知所有的潜在结果,才可以求出因果效应。

实际操作时,反事实结果是未知的,表格中我们只能观察到Y_iD_i两列,因此因果效应无法求解。

既然可以观测到Y_iD_i,是否可以对Y_i(被解释变量)和D_i(解释变量)做回归,识别出因果效应呢?

这种方法是计量经济学的基本建模方式。

1.4.总体因果效应和ols回归系数的关系

1.4.1 ols方法求解系数\tau_{ols}

Y_i=\alpha+\tau D_i+\eta_i

根据最小二乘法,求解出D_i的系数\tau_{ols}。(具体求解过程参见赵西亮《基本有用的计量经济学》P22)

\tau_{ols}=E[Y_i|D_i=1]-E[Y_i|D_i=0]

1.4.2 \tau_{ols}\tau_{ATT}

\begin{align} \tau_{ols}&=E[Y_i|D_i=1]-E[Y_i|D_i=0] \notag \\ &=E[Y_{1i}|D_i=1]-E[Y_{0i}|D_i=0] \notag \\ &=\underbrace{E[Y_{1i}|D_i=1]-[Y_{0i}|D_i=1]}_{ATT}+\underbrace{E[Y_{0i}|D_i=1]-E[Y_{0i}|D_i=0]}_{选择偏差} \notag \end{align}

从分解式可知,ols回归系数和干预组平均因果效应\tau_{ATT},相差一个E[Y_{0i}|D_i=1]-E[Y_{0i}|D_i=0],若这该式不等于0,表明存在样本自选择偏差,控制组和干预组初始的均值就存在显著差异。

以上大学对收入的影响为例说明,A组上大学的人本身就比B组上高中的人能力强,即使A组的人不上大学,所获得的收入均值也会高于B组。

1.4.3 \tau_{ols}\tau_{ATC}

\begin{align} \tau_{ols}&=E[Y_i|D_i=1]-E[Y_i|D_i=0] \notag \\ &=E[Y_{1i}|D_i=1]-E[Y_{0i}|D_i=0] \notag \\ &=\underbrace{E[Y_{1i}|D_i=0]-E[Y_{0i}|D_i=0]}_{ATC}+\underbrace{E[Y_{1i}|D_i=1]-E[Y_{1i}|D_i=0]}_{选择偏差}\notag \end{align}

原理同上,不再解释。

1.4.4 \tau_{ols}\tau_{ATE}

\begin{align} \tau_{ols}&=E[Y_i|D_i=1]-E[Y_i|D_i=0] \notag \\ &=\underbrace{E[Y_{1i}- Y_{0i}]}_{ATE}+\underbrace{E[Y_{0i}|D_i=1]-E[Y_{0i}|D_i=0]}_{选择偏差} \notag \\ &\qquad +[1-Pr(D_i=1)]\cdot\underbrace{[E(Y_{1i}-Y_{0i}|D_i=1)-E(Y_{1i}-Y_{0i}|D_i=0)]}_{两组因果效应差异}\notag \\ \end{align}

原理同上,不再解释。

D_i是随机分配的,D_i独立于Y_i,则选择偏差项为0,由\tau_{ols}可得出因果效应。

主要参考:赵西亮《基本有用的计量经济学》

编辑于 2021-08-23 21:10