LaLonde(1986)とその周辺の学習記録

【学習動機】

Rで傾向スコアマッチングをしようとしたら、パッケージのサンプルデータでだいたいLaLonde(1986) "Evaluating the Econometric Evaluations of Training Programs with Experiment Data"(https://www.researchgate.net/publication/4900843_Evaluating_the_Econometric_Evaluations_of_Training_Programs_with_Experiment_Data)のデータが出てくる。パッケージの使い方を説明するブログ記事はたくさんあるけれど、このデータ、この論文の説明をちゃんとしているブログ記事は見当たらなかった。LaLonde(1986)は計量経済学の歴史的に重要な論文なので、データの詳細やその位置づけに関して、メモしたものを記録しておく。

【学習内容】

LaLonde(1986)は、The National Supported Work Demonstration (NSW)という職業訓練プログラムの効果の評価をしている。このプログラムはランダム割付が行われているため、まずはRCTによる比較で効果を推定している。その後、ランダム割付の処置群データはそのまま、統制群のデータは別の非実験データを持ってきて、それまでに計量経済学で開発されてきた手法(サンプルセレクションモデル)で、RCTの推定と同じような結果が得られるかどうかを比較している。上手くやっていると思われていた計量経済学的手法による結果とRCTの結果があまり合っておらず、計量経済学的手法がRCTを再現できないということが示されてしまった。

それでは、計量経済学は一体全体どうなってしまうの～～～！？という話なのだが、その話(つまり、LaLonde(1986)の位置づけの話)を書く前に、LaLonde(1986)のデータの説明を書いておく。NSWは基本的な職能が不足している労働者に、職業経験とカウンセリングを与えることで、労働市場に参入できるよう手助けする一時的な雇用訓練プログラムであり、参加資格をランダムに割り付けている。1970年代中頃、the Manpower Demonstration Research Corporation (MDRC)がNSWプログラムを、合衆国の10か所(アトランタ、シカゴ、ハートフォード、ジャージーシティ、ニューアーク、ニューヨーク、オークランド、フィラデルフィア、サンフランシスコ、ウィスコンシン)で実施した。処置群と統制群、合わせて6616人。AFDCの女性、元薬物中毒者、前科者、高校を中退した人が対象となった。AFDC(Aid to Families with Dependent Children)とは被扶養児童のいる家庭への扶養制度のことだ。処置群に割り付けられた人は9~18か月の職が保証される。3~5人の班に分けられて、共に働き、共にカウンセリングを受ける。職の内容は場所によって異なり、ある場所ではガソリンスタンドだったり、ある場所では印刷所だったりする。MDRCはランダム割り付け時に処置群と統制群の人から所得と人口統計学的データをベースライン値として収集し、その後9か月おきに4回面談をして追跡調査を行った。

計量経済学的手法を試すため、実験で得られた処置群のデータと、非実験データから統制群の代わりとなる比較対照群のデータを揃えて、モデルを特定して、訓練プログラムの効果の推定を行う。代わりとなるデータはPSID(Panel Study of Income Dynamics)とCPS-SSA(Westat’s Matched Current Population Survey-Social Security Administration File)から作成する。PSIDはNLS(National Longitudinal Surveies)と並ぶアメリカの歴史の長いパネル調査。PSIDについては、村上・ホリオカ(2008)のパネル調査実施機関であるミシガン大学社会調査研究所へのヒアリングレポート(http://kakeiken.org/journal/jjrhe/79/079_06.pdf)が面白い。CPSはCensus Bureauが実施している調査。CPSについては、平成27年度内閣府の『諸外国における子供の貧困対策に関する調査研究』報告書(https://www8.cao.go.jp/kodomonohinkon/chousa/h27_gaikoku/index.html)と(https://www8.cao.go.jp/kodomonohinkon/chousa/h27_gaikoku/2_02_1.html)に少し記載があった。SSAは年金など社会保障を担当している機関で、CPS-SSAはCPAとSSAの所得データをマッチさせたもの。Lalonde(1986)ではPSIDから3つ、CPS-SSAから3つ比較対照群を作っている。それぞれの3変形は、どう集団を絞ったかが違う。CPSの1とCPS3については、アングリスト＆ピスケ『「ほとんど無害」な計量経済学』や安井＆ホクソエム『効果検証入門』に説明が書かれていたりする。そのあたりの詳細は(面倒なので)ここには書かない。

Lalonde(1986)の計量経済学的手法には、傾向スコアマッチングは含まれていない。傾向スコアはRosenbaum & Rubin(1983)で出てきてはいるが、LaLonde(1986)では使われていない。傾向スコアマッチングがLaLonde(1986)のデータに使われているのはDehejia & Wahba(1999) “Reevaluating the Evaluation of Training Programs”(https://www.uh.edu/~adkugler/Dehejia&Wahba_JASA.pdf)とDehejia & Wahba(2002) “Propensity Score-Matching Methods for Nonexperimental Causal Studies”(https://uh.edu/~adkugler/Dehejia&Wahba.pdf)だ。傾向スコアマッチングだと、RCTの結果に近い推定ができたというものだ。Rの傾向スコアマッチングで模しているのは、これ(のはず)。

さて、論文の概要やそのデータの説明をしたので、LaLonde(1986)の位置づけを書いておく。市村 (2016) 『ヘックマン「サンプルセレクションによるバイアスは特定化の誤謬によるバイアスと解釈できる」』(https://www.jil.go.jp/institute/zassi/backnumber/2016/04/pdf/010-015.pdf)が分かりやすい(加えて、市村先生はLaLonde(1986)以降の歴史を牽引している一人でもある)ので、ざっくりとその概要を書く。1950年代以降、集計データではなく、個票データの分析手法(計量経済学をテキストで学ぶと、古典的な回帰モデルとその拡張を行った後あたりで学ぶやつ)が開発されてきた。とくに、Heckmanのサンプルセレクションモデルの研究の貢献は大きく、社会実験ができない代わりに、計量経済学的手法によるプログラム評価が数多く行われた。このような状況の中で現れたのがLaLonde(1986)で、計量経済学的手法と社会実験の結果の不一致を示した。以降、プログラム評価は、社会実験か、実験に準ずる自然実験的状況を利用するものが主流となっていった(Angrist等)。一方で、計量経済学的手法が社会実験の結果を再現できなかった原因とその対策も研究された。原因は、所与とされる変数の分布の違い、とくに、サポートの違いが大きいということがHeckman-Ichimura-Smith-Todd(1996)によって突き止められる。以降、サポートの違いを考慮するマッチング手法や、バウンド分析などを使った非実験データへの実証分析がまた行われるようになってきている。

星野(2010)『統計学の視点から見た量的研究の課題と今後』(https://dl.ndl.go.jp/info:ndljp/pid/10621064)や今井・有村・片山 (2001) 『労働政策の評価 : 「構造推定アプローチ」と「実験的アプローチ」』(https://db.jil.go.jp/db/ronbun/zenbun/F2002040056_ZEN.htm)も参考になるので、リンクだけ貼っておく。北村(2009)『ミクロ計量経済学入門』の第12章も参考になる。