霞と側杖を食らう

ほしいものです。なにかいただけるとしあわせです。[https://www.amazon.jp/hz/wishlist/ls/2EIEFTV4IKSIJ?ref_=wl_share]

これは酒です

上野の美術館や博物館が休館しているらしい。例のウイルスのせいだそうだ。休館が始まる前に、トーハクと科博を訪れておけてよかった。トーハクでは、常設展の「人、神、自然」を観て回り、科博では、相転移の展示と科学技術の展示を観た。トーハクの昔のアートと科博の今のサイエンスを一日で味わうのは、ギャップが激しくて面白かった。いち早いウイルス騒動の沈静化と美術館や博物館の再開が待ち遠しいものだ。

信仰が建築技術や工芸技術と関わってきたことはトーハクで見たわけだが、お酒もまた信仰と関わってきた。口噛み酒は神事において巫女が作っていたところもある。キリスト教カトリックにとってワインはイエスの血である。ピラミッドの建設の労働の対価でビールが配られていたという話もある。お酒は、思考の速さを落とし、広さを狭め、余計なことを考えなくさせてくれる(余計なこと以外も忘れてしまうこともあるが)。人々の不安や憂鬱といった感情を一時的に和らげ、現実からの逃避を手助けしてくれる作用が信仰と密接にかかわってきたのだろう。

問題からの逃避は、問題解決の一つの手段である。問題の解き方を多種多様に持っておけば、問題を解決できる可能性は上がる。何かの手段・方法を学ぶことは、解法の手札を増やすことであるが、これはあまり意識をしなくても行うことができる。一方で、問題をどう発見するか、どう設定するかについては、考えが及びにくく、実行しにくいように思われる。実際、私自身、問題の発見の仕方について、重要性は感じていても、その仕方をどうやって学んだらいいのか、昔から困っていた。そんなときに、『ライト、ついてますか―問題発見の人間学』を知った。知ったきっかけは以下の記事を読んだことだった。

 

どうすれば問題を見つけられるようになるのか|うっちー|note

 

本書では、問題とは、理想と認識との相違であると定義して、問題とはいったい何なのか、誰にとってどのような問題なのか、どう設定するか、そもそも解く必要があるのか等が書かれている。読んだときの覚書は昔記事にした(https://moratoriamuo.hatenablog.com/entry/2020/01/23/001916)。 問題の解き方については、『いかにして問題をとくか』が有名だが、問題発見について考える素地を手に入れることができたという意味で、『ライト、ついてますか―問題発見の人間学』を知れて良かった。加えて、『イシューからはじめよ――知的生産の「シンプルな本質」』も読んだが、自分の解くべき問題を選択することの重要性が書かれていて、これもまた一読の価値はあった。

思考の対象を自分でコントロールすること、見えない構造を見抜くこと。David Foster Wallaceという作家が、とある大学で行った卒業スピーチの和訳のリンクを貼って、この記事を締めることにする(https://j.ktamura.com/this-is-water)。

『効果検証入門』の学習記録

【学習動機】

先日、TokyoRで、じゃんけんを勝ち抜いた結果、安井&ホクソエム『効果検証入門 ~正しい比較のための因果推論/計量経済学の基礎』(以下、『効果検証入門』)を頂いた。書評と言えるほど、たいそうなことは書けないが、読後感を書いていく。

www.amazon.co.jp

コードがあるサポートページ(https://github.com/ghmagazine/cibook)

【学習内容】

まず、タイトルが良い。正確に言うとサブタイトルの「計量経済学の基礎」が良い。この2、3年、計量経済学含む因果推論という分野の出版が盛り上がっている。中室&津川『「原因と結果」の経済学―――データから真実を見抜く思考法』や伊藤『データ分析の力 因果関係に迫る思考法』あたりが読みやすい因果推論紹介本として出てきた。山口『「家族の幸せ」の経済学 データ分析でわかった結婚、出産、子育ての真実』や大湾『日本の人事を科学する 因果推論に基づくデータ活用』あたりは具体的な対象分野の因果推論を教えてくれる。10年以上前になるが、レヴィット&ダブナー『ヤバい経済学』も計量経済学の事例紹介として面白い。これだけいい本が出てきているというのに、経済学出身でない人で、一歩進んで計量経済学のテキストを読もうって人はあまり聞かない気がする。計量経済学が少し遠い存在に感じるのだろう。たしかに、手を伸ばしにくいかもしれない。そんな中で、『効果検証入門』は、実はサブタイトルが「計量経済学の基礎」であり、難しさが程よい按配で書かれているため、計量経済学への第一歩への案内として、良いように感じた。次の一歩を踏み出すために、黒川博文先生の『因果推論のための計量経済学』というページ(https://sites.google.com/site/hirofumikurokawa/home/causal_inference)が参考になるだろう。

中身としては、回帰、傾向スコア、DIDとCausalImpact、RDDを扱っている。手法の説明を見て、Rで実行しながら、読み進められるので、読みやすかった。Pythonで書き換えている人もいるみたいなので、Rは厳しいけどPythonならという人はこちら(https://qiita.com/nekoumei/items/648726e89d05cba6f432)をぜひ。まぁ、Rのパッケージで便利なことができるというところも大事なので、Rで読むのが良いとは思う。個人的に使い方や存在を知らなかったパッケージも多く({WeightIt}, {CausalImpact}, {rdd}など)、勉強になった。{broom}も存在も使い方も知ってはいたが、あまり使いこなせていなかったのだが、何度も登場したおかげで、だいぶ慣れたように思う。

手法については、どのような仮定があるだとか、どのようなことに気を付けるべきかが書いてある点が良かった。回帰と傾向スコアって、使いやすいし、一見分かりやすいために、何かよく分からないけれど使ってしまうところがある。そういうところを見直す機会の一つとなった。ついでに、参考になりそうなものを追加で挙げておく。OVBについては、矢内勇生先生の欠落変数バイアスのシミュレーション(https://yukiyanai.github.io/jp/classes/econometrics2/contents/R/omitted-variable-bias.html)も参考になる。傾向スコアのLaLondeの話は、以前自分が書いた記事(http://moratoriamuo.hatenablog.com/entry/2020/02/10/235636)も参考になるかもしれない。CausalImpactはこの記事(http://ill-identified.hatenablog.com/entry/2019/10/09/120000)が役立つだろう。

さて、良いことを挙げてきたが、少し気になった点も書いておく(私の理解が間違っている可能性もあるので、その場合はコメントください)。17ページのセレクションバイアスと式の対応の図だが、本当のメールの効果の部分は、式の対応から言えば、ATEではなくATTのはずだと思われる。ただし、この例はp12の擬似データに対応していて、きっと簡単な例で説明するために、その効果はATTもATUも全部100で、ATEも100になっているから、正しいと言えば正しいのだが、ATTが後半で出てくることやそれがATEと異なってくることがあることを考えると、ミスリードになりうると思われた。ここに限らず、本書を通じて、そのあたりのτの使い方が、怪しいところがあったのが気になった。セレクションバイアスが何度も出てくるのだが、そのへんが。やはり、最初のところで、全部100にしないで、ATE以外も定義してしまうべきだったかもしれない。まぁとはいえ、そこが入門する人にとってハードルになってしまうかもしれないから、バランスが難しいのだが。
【追記 2020/02/20】 Angrist & Pischke "MASTERING 'METRICS" を見ていたら、p10で健康保険が人を健康にする効果を定義しているのだが、個人への効果をκとして、κに対して、"constant-effect assumption"を課している。『効果検証入門』では"MASTERING 'METRICS" の設定を踏襲して書かれているように思われる。"MASTERING 'METRICS"では、健康保険の話が終わるとκはもう出てこない。いつの間にか"constant-effect assumption"は消え去っていて、上手く後ろの話に接続している。一方、『効果検証入門』では、その後もτを引っ張ってしまっているため、怪しくなっているのではないだろうか。"MASTERING 'METRICS" の方も微妙なセッティングだなと個人的には感じた(読み飛ばしながら読んだため、読み間違えている可能性もあるが、"Mostly Harmless Econometrics"(『「ほとんど無害」な計量経済学』)の方が難易度は上がるが読みやすいかもしれない)。 【追記終】

DAGで描けば、一目で解決しそうな話もあったように思えるので、DAGがあればいいなとも思ったりもしたが、DAGの話はエコノメ(経済学の人は計量経済学(Econometrics)のことをエコノメと言ったりする。)よりも疫学・生物統計の人の方が強いイメージなので、そっちの出身の方が本を書いてくれたらなと思った。

全体として、因果推論(計量経済学)の良い入門書だったので、入門を終えたら、計量経済学の次の一歩を踏み出しましょう。

【学習予定】

エコノメを復習したい。理解が浅いところがたくさんあるので。
【追記 2020/03/04】 togetterにまとめられている『ア㊙️イさんのお尻と学ぶ統計学』(https://togetter.com/li/1342003)も、『ヤバい経済学』同様、トピックがとても面白く、解説もとても良いので、ここに記載しておく。 【追記終】

LaLonde(1986)とその周辺の学習記録

【学習動機】

Rで傾向スコアマッチングをしようとしたら、パッケージのサンプルデータでだいたいLaLonde(1986) "Evaluating the Econometric Evaluations of Training Programs with Experiment Data"(https://www.researchgate.net/publication/4900843_Evaluating_the_Econometric_Evaluations_of_Training_Programs_with_Experiment_Data)のデータが出てくる。パッケージの使い方を説明するブログ記事はたくさんあるけれど、このデータ、この論文の説明をちゃんとしているブログ記事は見当たらなかった。LaLonde(1986)は計量経済学の歴史的に重要な論文なので、データの詳細やその位置づけに関して、メモしたものを記録しておく。

【学習内容】

LaLonde(1986)は、The National Supported Work Demonstration (NSW)という職業訓練プログラムの効果の評価をしている。このプログラムはランダム割付が行われているため、まずはRCTによる比較で効果を推定している。その後、ランダム割付の処置群データはそのまま、統制群のデータは別の非実験データを持ってきて、それまでに計量経済学で開発されてきた手法(サンプルセレクションモデル)で、RCTの推定と同じような結果が得られるかどうかを比較している。上手くやっていると思われていた計量経済学的手法による結果とRCTの結果があまり合っておらず、計量経済学的手法がRCTを再現できないということが示されてしまった。

それでは、計量経済学は一体全体どうなってしまうの~~~!?という話なのだが、その話(つまり、LaLonde(1986)の位置づけの話)を書く前に、LaLonde(1986)のデータの説明を書いておく。NSWは基本的な職能が不足している労働者に、職業経験とカウンセリングを与えることで、労働市場に参入できるよう手助けする一時的な雇用訓練プログラムであり、参加資格をランダムに割り付けている。1970年代中頃、the Manpower Demonstration Research Corporation (MDRC)がNSWプログラムを、合衆国の10か所(アトランタ、シカゴ、ハートフォードジャージーシティニューアーク、ニューヨーク、オークランドフィラデルフィア、サンフランシスコ、ウィスコンシン)で実施した。処置群と統制群、合わせて6616人。AFDCの女性、元薬物中毒者、前科者、高校を中退した人が対象となった。AFDC(Aid to Families with Dependent Children)とは被扶養児童のいる家庭への扶養制度のことだ。処置群に割り付けられた人は9~18か月の職が保証される。3~5人の班に分けられて、共に働き、共にカウンセリングを受ける。職の内容は場所によって異なり、ある場所ではガソリンスタンドだったり、ある場所では印刷所だったりする。MDRCはランダム割り付け時に処置群と統制群の人から所得と人口統計学的データをベースライン値として収集し、その後9か月おきに4回面談をして追跡調査を行った。

計量経済学的手法を試すため、実験で得られた処置群のデータと、非実験データから統制群の代わりとなる比較対照群のデータを揃えて、モデルを特定して、訓練プログラムの効果の推定を行う。代わりとなるデータはPSID(Panel Study of Income Dynamics)とCPS-SSA(Westat’s Matched Current Population Survey-Social Security Administration File)から作成する。PSIDはNLS(National Longitudinal Surveies)と並ぶアメリカの歴史の長いパネル調査。PSIDについては、村上・ホリオカ(2008)のパネル調査実施機関であるミシガン大学社会調査研究所へのヒアリングレポート(http://kakeiken.org/journal/jjrhe/79/079_06.pdf)が面白い。CPSはCensus Bureauが実施している調査。CPSについては、平成27年内閣府の『諸外国における子供の貧困対策に関する調査研究』報告書(https://www8.cao.go.jp/kodomonohinkon/chousa/h27_gaikoku/index.html)と(https://www8.cao.go.jp/kodomonohinkon/chousa/h27_gaikoku/2_02_1.html)に少し記載があった。SSAは年金など社会保障を担当している機関で、CPS-SSACPASSAの所得データをマッチさせたもの。Lalonde(1986)ではPSIDから3つ、CPS-SSAから3つ比較対照群を作っている。それぞれの3変形は、どう集団を絞ったかが違う。CPSの1とCPS3については、アングリスト&ピスケ『「ほとんど無害」な計量経済学』や安井&ホクソエム『効果検証入門』に説明が書かれていたりする。そのあたりの詳細は(面倒なので)ここには書かない。

Lalonde(1986)の計量経済学的手法には、傾向スコアマッチングは含まれていない。傾向スコアはRosenbaum & Rubin(1983)で出てきてはいるが、LaLonde(1986)では使われていない。傾向スコアマッチングがLaLonde(1986)のデータに使われているのはDehejia & Wahba(1999) “Reevaluating the Evaluation of Training Programs”(https://www.uh.edu/~adkugler/Dehejia&Wahba_JASA.pdf)とDehejia & Wahba(2002) “Propensity Score-Matching Methods for Nonexperimental Causal Studies”(https://uh.edu/~adkugler/Dehejia&Wahba.pdf)だ。傾向スコアマッチングだと、RCTの結果に近い推定ができたというものだ。Rの傾向スコアマッチングで模しているのは、これ(のはず)。

さて、論文の概要やそのデータの説明をしたので、LaLonde(1986)の位置づけを書いておく。市村 (2016) 『ヘックマン「サンプルセレクションによるバイアスは特定化の誤謬によるバイアスと解釈できる」』(https://www.jil.go.jp/institute/zassi/backnumber/2016/04/pdf/010-015.pdf)が分かりやすい(加えて、市村先生はLaLonde(1986)以降の歴史を牽引している一人でもある)ので、ざっくりとその概要を書く。1950年代以降、集計データではなく、個票データの分析手法(計量経済学をテキストで学ぶと、古典的な回帰モデルとその拡張を行った後あたりで学ぶやつ)が開発されてきた。とくに、Heckmanのサンプルセレクションモデルの研究の貢献は大きく、社会実験ができない代わりに、計量経済学的手法によるプログラム評価が数多く行われた。このような状況の中で現れたのがLaLonde(1986)で、計量経済学的手法と社会実験の結果の不一致を示した。以降、プログラム評価は、社会実験か、実験に準ずる自然実験的状況を利用するものが主流となっていった(Angrist等)。一方で、計量経済学的手法が社会実験の結果を再現できなかった原因とその対策も研究された。原因は、所与とされる変数の分布の違い、とくに、サポートの違いが大きいということがHeckman-Ichimura-Smith-Todd(1996)によって突き止められる。以降、サポートの違いを考慮するマッチング手法や、バウンド分析などを使った非実験データへの実証分析がまた行われるようになってきている。

星野(2010)『統計学の視点から見た量的研究の課題と今後』(https://dl.ndl.go.jp/info:ndljp/pid/10621064)や今井・有村・片山 (2001) 『労働政策の評価 : 「構造推定アプローチ」と「実験的アプローチ」』(https://db.jil.go.jp/db/ronbun/zenbun/F2002040056_ZEN.htm)も参考になるので、リンクだけ貼っておく。北村(2009)『ミクロ計量経済学入門』の第12章も参考になる。

【学習予定】

『効果検証入門』をまだじっくり読めていないので読む。あと、傾向スコアに関して書く。

『科学とモデル シミュレーションの哲学入門』の覚書

【用途】

私は大学で経済学のモデルと統計学のモデルに触れて、モデルで考えることを学んだ。この二つの学問でも、また、それぞれの学問の中でも、モデルというものが違う。違うものだから、初めはモデルって何なのかと苦しんだ。物理学だとか他の学問だと、またモデルは違うのかもしれない。モデルと言われてイメージするものが違う可能性があるのに、モデルという同じ言葉で、議論がこんがらがってしまうことが起きることもある。私は大学でモデルを学んだが、学ぶ機会のなかった人もいるかもしれない。モデルとは何かと悩む人が出てくるかもしれない。

そんなこんなで、モデルというものをもっと俯瞰的に知ることができないかと思っていたら、マイケル・ワイスバーグ著 松王政浩訳『科学とモデル シミュレーションの哲学入門』という本を教えてもらった。モデルについて、いつかまとまった文章、スライドを作るために、この本のメモ書きを用意しておく。

【内容】

モデルは構造と解釈の組み合わせで成立する。

モデルの構造は3種類に分類できる。

  1. 具象モデル(ex. ベイモデル)
  2. 数理モデル(ex. ロトカ-ヴォルテラモデル)
  3. 数値計算モデル(ex. シェリングの人種分離モデル)

具象モデルは物理的に存在する構造から、数理モデルは数学的構造から、数値計算モデルは手続きから構築される。 構造によって異なる表現能力をもつ。

モデル記述とはモデルを特定するものであり、モデルとはモデル記述を実現するもの。

モデルは構造と解釈からなり、特定するという関係を通してモデル記述と関係し、類似関係を通して対象システムと関係する。

解釈は4つの部分から成り立つ。割り当て、モデル制作者が意図する範囲、二つの種類の忠実度基準(動的な忠実度基準と表象の忠実度基準)

対象指向型モデリング
現象から抽象化して対象システム、その類似性でモデル、特定化してモデル記述。数理モデルだと、対象システムとモデルの間に対象の数学的表現が入る。p148の図が分かりやすい。

類似性に基づいて対象を表現しようとするが、完全に類似したモデルを作ることが目的ではないことも多い。モデルに対して理想化を導入。 対象を歪めることがある。理想化は3種類。ガリレイ的理想化。ミニマリストの理想化。多重モデルによる理想化。

対象指向型モデリング。 特定の対象なしのモデリング。三種類。 汎化モデリング。仮説的モデリング。対象なしモデリング

ロバスト分析は三種類。パラメータ・ロバストネス、構造ロバストネス、表現ロバストネス。

訳者の記事
http://phys.sci.hokudai.ac.jp/LABS/kisoron/weisberg.html

とあるブログの読書メモ
https://rmaruy.hatenablog.com/entry/2017/04/27/220607
が読みやすいので、記載しておく。

【記憶の検索キーワード】

モデル, 科学

『ライト、ついてますか―問題発見の人間学』の覚書

【用途】

問いを立てることの重要性は昔から分かっていたつもりだが、問いについて、問題について真剣に考えたことはなかった。そんな中で偶然知った、ゴース&ワインバーグ著 木村訳『ライト、ついてますか―問題発見の人間学』を読んで、とてもためになったので、自分向けのメモ書き、というか、読み終わった後バーッと見返して、ワードの拾い集め。そのうち、色々読んだものをまとめたものを書く。そのための、メモ書き。

【内容】

  • 問題とは、欲求と認識の間の相違。

  • 欲求を鋭くすると問題が見える。人の欲求を見抜くと人の問題が見える。逆に欲求を認識に合わせると消える。

  • 認識を敏感にすると問題が見える。人の認識を感じたならば人の問題が見える。逆に認識の感度を落とせば世界は曖昧になり問題が消える。

  • 誰にとっての問題?問題の本質は?

  • 真の問題の定義は決して分からないけれど、追求すべきものである。

  • 解答すると次の問題が出てくるのが常。

  • 問題は気が付きにくいこともある。

  • 自分の問題解決をダメにするリスク要因を3つ以上考えること。

  • 結論に飛び付かない。

  • その解決策と付き合う人々とうまく合わない解決策は不適合である。

  • 問題定義が外国人、盲人、子供についてならどうなるか確認する。つまり新しい別の視点で問題を眺める。すると不適合が出てくるはず。
  • 問題定義を言葉にしたら、各言葉を言葉遊びで色んな視点で眺め直す。

  • 問題を誰にとっての問題かで見る。解決できる人が関係者にいるなる、その人の問題としてしまって、解くインセンティブを作ってしまう。

  • 問題の出所。どこから来たかを考えると、問題定義と解法が。それは自分の中かもしれない。
  • 解決するまで何が欲しかったか分からないこともある。
  • 本当に問題を解いてほしかった人はいないということもある。
  • 本当に解きたいのか?

  • 魚、水を見ず。状況を想像して問題を解く。

  • 当たり前のものは見えてないかもしれない。無意識に仮定してる前提。それが解法によっては、解の副作用として別の大きな問題の原因になるかもしれない。

【記憶の検索キーワード】

問題, ライト, 解決, 欲求, 認識

Data Gateway Talk vol.5 の後日譚々

はじめに

Data Gateway Talk vol.5 @ブレインパッド に行って参りました(初参加)。Data Gateway Talkはデータアナリスト/データサイエンティストの 登竜門(Gateway to Success)となることを目指した勉強会とのことで、私ももっと強くなれたらなぁと思い参加しました。

以下、参加している間に書いたメモ書きです。機械学習の紹介系LTは私の知識不足とメモ不足で、メモ書きがミスってる可能性が高いのでご注意ください。

実はu++さんの高速でアップロードされた記事の方が読みやすいかもしれませんが、あしからず。

upura.hatenablog.com

公募LT1

奥田 悠貴(okd_yk) データ視覚化について

お勤め : SWITCH media lab

視聴率の高い番組を選べばいいのか。そうではないという話。
化粧品のCMを流す番組を選びたい。視聴が被っているような番組を複数選んでも、届く範囲が狭い(リーチが低い)
被り具合を考えて幅広く広告が届くようにすべき。

では、この結果はどうやって伝えるか

  • 相手の背景知識
  • 自分の伝えたいこと
  • 相手の知りたいこと

意思決定を促進できるデータが必要。

情報量が多いグラフ、即座に分かり辛い。
相手がどこに重点を置いているかを知っていると、どのグラフでどう可視化するかを考える手助けになる。データとデザイン。

LT1

松村 優也 (yu-ya4) 「データ分析」の解像度を上げたい

お勤め : Wantedly

「データ分析うまくやっているか」

  • SQL作成依頼殺到
  • 結局それってどうなのと不満げに言われる
  • データ分析インターン呼んでみたがうまくいかず

これらは「データ分析」という言葉の曖昧さゆえの期待値とのズレに起因すると考えられる。

Hikaru Kashidaさんのnote

分析とはひとことでいうと◯◯◯である|樫田光 | Hikaru Kashida|note

『A or B』という問いに対して解を出すこと。
数字による事実を出して、判断基準(目標や過去、状況)と比較して解を出す。
4つの要素に分解。

  1. 問いを立てる力
  2. 数字で事実を見つける力
  3. 判断基準を設ける力
  4. 解を示す力

4つの要素を考慮して、育成、採用、チーム編成することで、期待値のズレを少なくできるのでは。

公募LT2

Yasshieeee(やっしー)

工学院大学情報学部

GBDTアルゴリズム(Gradient Boost Decision Tree)

勾配ブースティングとは
弱分類器の予測値の誤差を、新しい弱分類器が引き継いで小さくしていく手法。
ランダムフォレストは一斉に学習して多数決。
勾配ブースティングは引き継ぎながら。

XGBoost, LightGBM, CatBoostとある。

XGBoost
外部記憶装置から適宜、読みだして処理するときの問題。勾配統計のキャッシュミス。各スレッドに内部バッファ。

LightGBM
Leaf Wise 使用する決定器を葉に準じて成長させる。
Level wiseより計算量が少ない。最適な枝分けを探すための計算量削減。

CatBoost
Prediction Shift
Ordered Boostingで解決。

irisデータセットで分類。Light GBM速い。

LT2

馬場 はるか Hivemallを使ってSQL機械学習

お勤め : ブレインパッド
総合研究大学院大学天文科学専攻
物理MLのmeetup宣伝

  • Hivemallとは何で、どこでどう使うか
  • Hivemallを使うと何が嬉しいのか

Hadoop : 並列分散処理ができる
Hive : Hadoop上でDBMSの機能を提供

Hivemall : 機械学習ライブラリ。HiveQLクエリを使って学習から予測まで。

HivemallでXGBoost実装された。クエリで学習・予測を行う。
モデルや予測結果はテーブルで管理。

Hivemallが有効な場面。
普通は、DBから分析用環境に出して学習・予測してDBに戻す。
Hivemallでは分析用環境が不要。DB内部で事足りる。転送のプロセスにおけるエラーが起こりにくい。

公募LT3

morishita SHAP(SHapley Additive exPlanations)で機械学習モデルを解釈する

お勤め : TVISION INSIGHT
予測値の理由付け。出てきた予測の説明責任。解釈性。施策の方向性。
平均と個人の予測値の差分を分解する。
各特徴量の貢献度による差分の分解。
線形モデルなら上手くいきそう。複雑だとどうする。
協力ゲーム理論のSharpley Valueで分解。
A,B,Cのプレイヤーのアルバイト報酬のフェアな配分。貢献度をどうやって測るか。限界貢献度。
全ての順番、元の状態に対してそのプレイヤーが参加することによる報酬の増分を計算して平均して合わせる。Sharpley Value。良い性質を持っている。

Sharpley Value機械学習に応用する = SHAP
報酬ではなくて予測値を使う。

ない変数は周辺化して消し飛ばす。

pythonのモジュールにshap。RのパッケージのDALEX(Rのパッケージについては過去のTokyoRの発表が参考になるかもしれない)。

How to use in R model-agnostic data explanation with DALEX & iml

water fall plot
dependence plot
summary plot
平均的なふるまいだけでなくて外れ値のところも見ることができる。

ただし、モデルのふるまいを解釈してるという点、モデルを足し算的に解釈している点、には注意が必要。

LT3

池澤龍星 リサーチデータと付き合うために大事なこと

お勤め : FiNC

グロースエンジニアリングとは何か。

外部ツールを導入してみたが。
ツールを取り巻く環境や状況。
手動で管理、ツールログイン制限、APIがない、データ形式が特殊。
手間がかかる。
Redash, RedShift、整形をスクリプトで行うようにした。

導入後に問題が起きないかを想定、データの整形、自動化で定期実行。
一部の人しか使えないような状況を解消する。

自分だけでやろうとしない。ちゃんと困っている人と議論して、どこが問題の本質なのかを見極める。

公募LT4

Daiki Futami 意思決定に回帰分析を利用した話と3つの学び

お勤め : Retty

  • 意思決定者のアクションに繋がる成果物を把握しよう
  • 交互作用な考慮しなgらMECEな分析設定に落とし込もう
  • 信頼区間やp値から有効そうな説明変数を見つめよう

食を通じて世界をハッピーに。

先輩枠

太田 満久 @ohtaman

お勤め : ブレインパッド。CDTO

データ分析とベンチャーと上場とキャリアの話。

Java開発エンジニア → NLPチーム → Chief Data Technology Officer

入ったときはベンチャーだったところから、上場企業。

ベンチャー時代のブレインパッドに惹かれた理由

  • もっとデータを活用しようって姿勢がよかった
  • 上場体験をしてみたかった
  • ベンチャーの泥臭い作業しときたかった

上場前の雰囲気。理想より売り上げという圧力を感じた。
経営陣と密なコミュニケーションがとれたのは良かった。

ベンチャーを選んで良かったのか

  • 今の方が優秀な人が多いが、昔の方が多様性あった
  • 整っていない組織で、管理されない自由だが責任が大きい
  • 仕事は今の方が大きい仕事を取りやすい
  • お金の面に関して、福利厚生を含めるとなかなか大手に勝てない
  • 株やストックオプションの可能性もあるが、状況次第
  • 経営陣との距離の近さでモチベーションになる

10年間、影響が大きかったもの3つ

  1. 「Quick and Dirty」で仕事の効率を上げる姿勢。経営陣からのお言葉。 完璧である必要はないから迅速にアウトプットを出すスタイルのこと。フィードバックをもらって出すことをサイクルにする。

  2. 「株式会社おおたまんだと思ってやてみな」経営陣からのお言葉。 プレイヤーからマネジメントへ
    部下への仕事の任せ方で失敗。
    何をしたいか本気で考える。そのために何ができるのかを本気で考える。

  3. 人をつなぐ面白さ 開発と分析の両刀人材ではなく、開発と分析をつなぐ仕組みを作ろうと考えた。人をつなぐ面白さ。コミュニティ活動。コミュニティのオーガナイザー。
    好循環の自己強化ループに自分を巻き込む。一歩踏み出すのが大事。最初の勇気が大切。

物事を楽しめる、面白いと思えるということが大切。面白いことを自分から見つけ出す。これが一番大事

おわりに

分析とは何ぞや、どうすべきかと奮闘するタイプのものと、分析手法を紹介するタイプのものに大きく分けられるように感じました。両タイプとも楽しく聞けて面白かったです。前者については、最近読んだ『イシューからはじめよ――知的生産の「シンプルな本質」』を思い出しながら聞いていました。分析とは何かについて、自分なりに頭の中でまとまりかけているところなので、何かしらの形でアウトプットして、どこかで発表できる機会があれば発表してみたいなと思っているところです。

また参加できる機会があれば(発表できる機会があれば)、参加したいと思います。今回は参加させていただき、ありがとうございました。

2019年の後日譚々

 2020年になったので、2019年を振り返る。2019年の最も大きな出来事は就職だった。仕事の内容の大枠はデータ分析とはいえ、これまでのバックグラウンドとは異なる医療業界での仕事となったため、知らないことだらけの異世界転生のようなスタートであった。半年と少し働いてみて、慣れてきたようには思う。仕事内容は楽しいし、意見が理不尽に抑圧されることもないので、職場の選択は間違っていなかった。もう少しお金がもらえたらいいなと思うことはあるが、周りの稼いでいる人間と比較してしまうせいなのかもしれない。

 大学中心だった生活から切り離されたこともあり、新しいコミュニティに参加したりした一年でもあった。大学周りのコミュニティとは違う文化が広がっていて、世の中には色々な人がいるものだと思う日々であった。生まれ育った背景が20年以上違うわけだから、ものの考え方や見え方が違ってくるのは当然で、そういった違いに触れて、昨年の就職活動での自己分析とはまた違った形で、自分の価値観を再考し、見つめ直すこととなった。その見つめ直しは継続している。本を読んだり映画を見たり人と話したりしながら、考えて生きていきたい。

 昨年やると決めたこととして、対外的な活動を積極的にするというのがあ ったが、昨年は外部の勉強会で4本の発表をした(TokyoRで1本, Spoanaで3本 )。


トピックモデルで1週間の献立をレコメンドする - Speaker Deck
バドミントン 戦略シミュレーション分析 - Speaker Deck
Bradley-Terryモデルによる戦闘力推定 - Speaker Deck
野球のリリーフ指標MRTRの開発をやってみた - Speaker Deck


まだまだ発表の経験が不足していると感じているので、2020年も対外的な発表は続けていきたい。核となる知識としては、医療統計・生物統計、因果推論あたりをターゲットとして深く学んでいきたい。周辺知識として、python機械学習に手を出していきたいところ。英語は読む量は増えたけれど、聴く量が圧倒的に不足しているので、聴く量を増やす。こういった学習は当たり前として、感性の広がりが近頃滞っているような気がしたので、映画を最低50本、できれば100本くらい観たい。より広く深く面白く、まだ知らぬ世界を見られるように。今年も良い年になりますように。