因果效应详解
- 1.4.总体因果效应和ols回归系数的关系
1.因果效应
1.1 潜在结果、观测结果、反事实结果
例: 考察个体i上大学和上高中,对收入是否有影响
Y_i=\begin{cases} Y_{1i},&if\ D_i=1\\ Y_{0i},&if\ D_i=0 \end{cases}
1.1.1 潜在结果
不管是上大学还是上高中,潜在结果不发生变化,都是两种
当上大学时,即D_i=1, 收入为Y_{1i};
当上高中时,即D_i=0, 收入为Y_{0i}。
1.1.2 观测结果和反事实结果
①假设个体接受的是大学教育,D_i=1
上大学的情况可观测,Y_{1i}是事实结果(观测结果);上高中的情况不可观测,Y_{0i}称为反事实结果。
②假设个体接受的是高中教育,D_i=0
上高中的情况可观测,Y_{0i}事实结果(观测结果); 上大学的情况不可观测,Y_{1i}称为反事实结果。
1.2 个体因果效应
1.2.1 公式
\tau_i=Y_{1i}-Y_{0i} \quad i=1,...,N
对于个体i,某项干预的因果效应是两种状态下潜在结果的比较
例中,上大学对个体i收入的因果效应,为个体i上大学的收入减去其上高中的收入。从而得到上大学对收入的影响。
1.2.2 两点说明
①因果效应的定义仅依赖于两个潜在结果,与哪一个潜在结果被观测到没有关系
②因果效应是干预后同一时间、同一物理个体潜在结果的比较。
1.2.3 核心
因果效应中两个潜在结果,只能观测到其中一个,另一个反事实结果无法观测。
因果推断的核心就是估计出反事实结果。
要想估计出反事实结果,必须用到多个个体。因此,我们关注总体因果效应。
1.3. 总体因果效应
i为个体, D_i为干预状态,Y_i为观测结果,Y_{0i}和 Y_{1i}是潜在结果,加粗部分是反事实结果。
i | D_i | Y_i | Y_{0i} | Y_{1i} | Y_{1i}-Y_{0i} |
---|
1.3.1 ATE(总体平均因果效应)
- 定义
所有个体因果效应的平均值
- 公式
\tau_{ATE}=E[Y_{1i}-Y_{0i}]
- 计算
\begin{align} \tau_{ATE} & =\frac{1}{5}\cdot\sum_{i=1}^5(Y_{1i}-Y_{0i})\notag \\ &=\frac{1}{5}\cdot[(6-5)+(7-6)+(7-5.5)+(6-5)+(7-6)]\notag \\ &=1.1 \notag \\ \end{align}
1.3.2 ATT(干预组平均因果效应)
- 定义
受到干预影响的个体因果效应的平均值(干预组)
- 公式
\tau_{ATT}=E[(Y_{1i}-Y_{0i})|D_i=1]
- 计算
\begin{align} \tau_{ATT}&=\frac{1}{3}\cdot\sum[(Y_{1i}|D=1)-(Y_{0i}|D=1)]\notag \\ &=\frac{1}{3}\cdot[(7-5.5)+(6-5)+(7-6)] \notag \\ &=1.17 \notag \end{align}
1.3.3 ATC(控制组平均因果效应)
- 定义
没有受到干预影响的个体因果效应的平均值(控制组)
- 公式
\tau_{ATC}=E[(Y_{1i}-Y_{0i})|D_i=0]
- 计算
\begin{align} \tau_{ATC}&=\frac{1}{2}\cdot\sum[(Y_{1i}|D_i=0)-(Y_{0i}|D_i=0)]\notag \\ &=\frac{1}{2}\cdot[(6-5)+(7-6)] \notag \\ &=1 \notag \\ \end{align}
上面例子中,假设我们已知所有的潜在结果,才可以求出因果效应。
实际操作时,反事实结果是未知的,表格中我们只能观察到Y_i和D_i两列,因此因果效应无法求解。
既然可以观测到Y_i和D_i,是否可以对Y_i(被解释变量)和D_i(解释变量)做回归,识别出因果效应呢?
这种方法是计量经济学的基本建模方式。
1.4.总体因果效应和ols回归系数的关系
1.4.1 ols方法求解系数\tau_{ols}
Y_i=\alpha+\tau D_i+\eta_i
根据最小二乘法,求解出D_i的系数\tau_{ols}。(具体求解过程参见赵西亮《基本有用的计量经济学》P22)
\tau_{ols}=E[Y_i|D_i=1]-E[Y_i|D_i=0]
1.4.2 \tau_{ols}与\tau_{ATT}
\begin{align} \tau_{ols}&=E[Y_i|D_i=1]-E[Y_i|D_i=0] \notag \\ &=E[Y_{1i}|D_i=1]-E[Y_{0i}|D_i=0] \notag \\ &=\underbrace{E[Y_{1i}|D_i=1]-[Y_{0i}|D_i=1]}_{ATT}+\underbrace{E[Y_{0i}|D_i=1]-E[Y_{0i}|D_i=0]}_{选择偏差} \notag \end{align}
从分解式可知,ols回归系数和干预组平均因果效应\tau_{ATT},相差一个E[Y_{0i}|D_i=1]-E[Y_{0i}|D_i=0],若这该式不等于0,表明存在样本自选择偏差,控制组和干预组初始的均值就存在显著差异。
以上大学对收入的影响为例说明,A组上大学的人本身就比B组上高中的人能力强,即使A组的人不上大学,所获得的收入均值也会高于B组。
1.4.3 \tau_{ols}与\tau_{ATC}
\begin{align} \tau_{ols}&=E[Y_i|D_i=1]-E[Y_i|D_i=0] \notag \\ &=E[Y_{1i}|D_i=1]-E[Y_{0i}|D_i=0] \notag \\ &=\underbrace{E[Y_{1i}|D_i=0]-E[Y_{0i}|D_i=0]}_{ATC}+\underbrace{E[Y_{1i}|D_i=1]-E[Y_{1i}|D_i=0]}_{选择偏差}\notag \end{align}
原理同上,不再解释。
1.4.4 \tau_{ols}与\tau_{ATE}
\begin{align} \tau_{ols}&=E[Y_i|D_i=1]-E[Y_i|D_i=0] \notag \\ &=\underbrace{E[Y_{1i}- Y_{0i}]}_{ATE}+\underbrace{E[Y_{0i}|D_i=1]-E[Y_{0i}|D_i=0]}_{选择偏差} \notag \\ &\qquad +[1-Pr(D_i=1)]\cdot\underbrace{[E(Y_{1i}-Y_{0i}|D_i=1)-E(Y_{1i}-Y_{0i}|D_i=0)]}_{两组因果效应差异}\notag \\ \end{align}
原理同上,不再解释。
若D_i是随机分配的,D_i独立于Y_i,则选择偏差项为0,由\tau_{ols}可得出因果效应。
主要参考:赵西亮《基本有用的计量经济学》