霞と側杖を食らう

ほしいものです。なにかいただけるとしあわせです。[https://www.amazon.jp/hz/wishlist/ls/2EIEFTV4IKSIJ?ref_=wl_share]

『効果検証入門』の学習記録

【学習動機】

先日、TokyoRで、じゃんけんを勝ち抜いた結果、安井&ホクソエム『効果検証入門 ~正しい比較のための因果推論/計量経済学の基礎』(以下、『効果検証入門』)を頂いた。書評と言えるほど、たいそうなことは書けないが、読後感を書いていく。

www.amazon.co.jp

コードがあるサポートページ(https://github.com/ghmagazine/cibook)

【学習内容】

まず、タイトルが良い。正確に言うとサブタイトルの「計量経済学の基礎」が良い。この2、3年、計量経済学含む因果推論という分野の出版が盛り上がっている。中室&津川『「原因と結果」の経済学―――データから真実を見抜く思考法』や伊藤『データ分析の力 因果関係に迫る思考法』あたりが読みやすい因果推論紹介本として出てきた。山口『「家族の幸せ」の経済学 データ分析でわかった結婚、出産、子育ての真実』や大湾『日本の人事を科学する 因果推論に基づくデータ活用』あたりは具体的な対象分野の因果推論を教えてくれる。10年以上前になるが、レヴィット&ダブナー『ヤバい経済学』も計量経済学の事例紹介として面白い。これだけいい本が出てきているというのに、経済学出身でない人で、一歩進んで計量経済学のテキストを読もうって人はあまり聞かない気がする。計量経済学が少し遠い存在に感じるのだろう。たしかに、手を伸ばしにくいかもしれない。そんな中で、『効果検証入門』は、実はサブタイトルが「計量経済学の基礎」であり、難しさが程よい按配で書かれているため、計量経済学への第一歩への案内として、良いように感じた。次の一歩を踏み出すために、黒川博文先生の『因果推論のための計量経済学』というページ(https://sites.google.com/site/hirofumikurokawa/home/causal_inference)が参考になるだろう。

中身としては、回帰、傾向スコア、DIDとCausalImpact、RDDを扱っている。手法の説明を見て、Rで実行しながら、読み進められるので、読みやすかった。Pythonで書き換えている人もいるみたいなので、Rは厳しいけどPythonならという人はこちら(https://qiita.com/nekoumei/items/648726e89d05cba6f432)をぜひ。まぁ、Rのパッケージで便利なことができるというところも大事なので、Rで読むのが良いとは思う。個人的に使い方や存在を知らなかったパッケージも多く({WeightIt}, {CausalImpact}, {rdd}など)、勉強になった。{broom}も存在も使い方も知ってはいたが、あまり使いこなせていなかったのだが、何度も登場したおかげで、だいぶ慣れたように思う。

手法については、どのような仮定があるだとか、どのようなことに気を付けるべきかが書いてある点が良かった。回帰と傾向スコアって、使いやすいし、一見分かりやすいために、何かよく分からないけれど使ってしまうところがある。そういうところを見直す機会の一つとなった。ついでに、参考になりそうなものを追加で挙げておく。OVBについては、矢内勇生先生の欠落変数バイアスのシミュレーション(https://yukiyanai.github.io/jp/classes/econometrics2/contents/R/omitted-variable-bias.html)も参考になる。傾向スコアのLaLondeの話は、以前自分が書いた記事(http://moratoriamuo.hatenablog.com/entry/2020/02/10/235636)も参考になるかもしれない。CausalImpactはこの記事(http://ill-identified.hatenablog.com/entry/2019/10/09/120000)が役立つだろう。

さて、良いことを挙げてきたが、少し気になった点も書いておく(私の理解が間違っている可能性もあるので、その場合はコメントください)。17ページのセレクションバイアスと式の対応の図だが、本当のメールの効果の部分は、式の対応から言えば、ATEではなくATTのはずだと思われる。ただし、この例はp12の擬似データに対応していて、きっと簡単な例で説明するために、その効果はATTもATUも全部100で、ATEも100になっているから、正しいと言えば正しいのだが、ATTが後半で出てくることやそれがATEと異なってくることがあることを考えると、ミスリードになりうると思われた。ここに限らず、本書を通じて、そのあたりのτの使い方が、怪しいところがあったのが気になった。セレクションバイアスが何度も出てくるのだが、そのへんが。やはり、最初のところで、全部100にしないで、ATE以外も定義してしまうべきだったかもしれない。まぁとはいえ、そこが入門する人にとってハードルになってしまうかもしれないから、バランスが難しいのだが。
【追記 2020/02/20】 Angrist & Pischke "MASTERING 'METRICS" を見ていたら、p10で健康保険が人を健康にする効果を定義しているのだが、個人への効果をκとして、κに対して、"constant-effect assumption"を課している。『効果検証入門』では"MASTERING 'METRICS" の設定を踏襲して書かれているように思われる。"MASTERING 'METRICS"では、健康保険の話が終わるとκはもう出てこない。いつの間にか"constant-effect assumption"は消え去っていて、上手く後ろの話に接続している。一方、『効果検証入門』では、その後もτを引っ張ってしまっているため、怪しくなっているのではないだろうか。"MASTERING 'METRICS" の方も微妙なセッティングだなと個人的には感じた(読み飛ばしながら読んだため、読み間違えている可能性もあるが、"Mostly Harmless Econometrics"(『「ほとんど無害」な計量経済学』)の方が難易度は上がるが読みやすいかもしれない)。 【追記終】

DAGで描けば、一目で解決しそうな話もあったように思えるので、DAGがあればいいなとも思ったりもしたが、DAGの話はエコノメ(経済学の人は計量経済学(Econometrics)のことをエコノメと言ったりする。)よりも疫学・生物統計の人の方が強いイメージなので、そっちの出身の方が本を書いてくれたらなと思った。

全体として、因果推論(計量経済学)の良い入門書だったので、入門を終えたら、計量経済学の次の一歩を踏み出しましょう。

【学習予定】

エコノメを復習したい。理解が浅いところがたくさんあるので。
【追記 2020/03/04】 togetterにまとめられている『ア㊙️イさんのお尻と学ぶ統計学』(https://togetter.com/li/1342003)も、『ヤバい経済学』同様、トピックがとても面白く、解説もとても良いので、ここに記載しておく。 【追記終】