1. PSM 简介
在经济学中,我们通常希望评估某项公共政策实施后的效应,为此,我们构建 "处理组" 和 "控制组" 以评估「处理效应 (treatment effect)」。然而,我们的数据通常来自非随机的观察研究中,处理组和控制组的初始条件不完全相同,故存在「选择偏差 ( selection bias)」问题。「倾向得分匹配 (PSM)」法使用倾向得分函数将多维向量的信息压缩到一维,然后根据倾向得分进行匹配。这样可以在既定的可观测特征变量下,使得处理组个体和控制组个体尽可能相似,因而可以缓解处理效应的选择偏差问题。
2. PSM 的分析过程
2.1 PSM 模型设定
对于个体 ,根据是否进行某项处理可以分为两种结果:
表示个体 是否进行某项处理,即 1 表示处理,0表示未处理;
表示个体进行处理的结果;
表示个体未进行处理的结果。
在给定可观测特征变量 情况下,个体 进入处理组的条件概率为:
根据式 (1) 和 (2) 可得参与者的平均处理效应 (ATT) 为:
2.2 PSM 的假设条件
共同支撑假设 (Common Support Assumption)
对于 的任何可能取值,都有 $0
平行假设 (Balancing Assumption)
给定 ,则 独立于 。此假定意味着,对于给定的 ,处理是随机的,即在接受处理之前,处理组和控制组之间没有差异,处理组产生的效应完全来自处理。
2.3 PSM 一般步骤
选择协变量 :尽可能涵盖影响 与 的相关变量;
获取 PS 值:可以使用 probit 或 logit 模型估计;
检验平行假设是否满足:使得 在匹配后的处理组均值和控制组均值较接近,保证数据平衡;
根据 PS 值将处理组个体和控制组个体进行配对:匹配的方法有最近邻匹配、半径匹配、核匹配等;
根据匹配后样本计算 ATT 。
3. PSM 的 Stata 实例
*-安装命令 ssc install psmatch2, replace psmatch2 Ln_geodistance_ew $control, out(ln_Cash_ratio1) neighbor(1) ate ties logit common
Logit模型具体分三类:第一类为二分类logistic模型,其对应的命令代码分别为logit;有序多分类logistic模型,其对应的命令代码分别为ologit;无序多分类logistic回归模型,其对应的命令代码为mlogit。
在实践中,并没有明确的规则来限定使用哪种匹配方法,但有一些经验法则可以来参考:
最常用的方法:尝试不同的匹配方法,然后比较它们的结果,结果相似说明很稳健。结果差异较大,就要深挖其中的原因。
但PSM也有局限性: