Data Gateway Talk vol.5 の後日譚々 - 霞と側杖を食らう

はじめに

Data Gateway Talk vol.5 @ブレインパッドに行って参りました(初参加)。Data Gateway Talkはデータアナリスト/データサイエンティストの登竜門(Gateway to Success)となることを目指した勉強会とのことで、私ももっと強くなれたらなぁと思い参加しました。

以下、参加している間に書いたメモ書きです。機械学習の紹介系LTは私の知識不足とメモ不足で、メモ書きがミスってる可能性が高いのでご注意ください。

実はu++さんの高速でアップロードされた記事の方が読みやすいかもしれませんが、あしからず。

upura.hatenablog.com

公募LT1

奥田悠貴(okd_yk) データ視覚化について

お勤め : SWITCH media lab

TV広告業界
結果の見せ方

視聴率の高い番組を選べばいいのか。そうではないという話。
化粧品のCMを流す番組を選びたい。視聴が被っているような番組を複数選んでも、届く範囲が狭い(リーチが低い)
被り具合を考えて幅広く広告が届くようにすべき。

では、この結果はどうやって伝えるか

相手の背景知識
自分の伝えたいこと
相手の知りたいこと

意思決定を促進できるデータが必要。

情報量が多いグラフ、即座に分かり辛い。
相手がどこに重点を置いているかを知っていると、どのグラフでどう可視化するかを考える手助けになる。データとデザイン。

LT1

松村優也 (yu-ya4) 「データ分析」の解像度を上げたい

お勤め : Wantedly

「データ分析うまくやっているか」

SQL作成依頼殺到
結局それってどうなのと不満げに言われる
データ分析インターン呼んでみたがうまくいかず

これらは「データ分析」という言葉の曖昧さゆえの期待値とのズレに起因すると考えられる。

Hikaru Kashidaさんのnote

分析とはひとことでいうと◯◯◯である｜樫田光 | Hikaru Kashida｜note

『A or B』という問いに対して解を出すこと。
数字による事実を出して、判断基準(目標や過去、状況)と比較して解を出す。
4つの要素に分解。

問いを立てる力
数字で事実を見つける力
判断基準を設ける力
解を示す力

4つの要素を考慮して、育成、採用、チーム編成することで、期待値のズレを少なくできるのでは。

公募LT2

Yasshieeee(やっしー)

工学院大学情報学部

GBDTアルゴリズム(Gradient Boost Decision Tree)

勾配ブースティングとは
弱分類器の予測値の誤差を、新しい弱分類器が引き継いで小さくしていく手法。
ランダムフォレストは一斉に学習して多数決。
勾配ブースティングは引き継ぎながら。

XGBoost, LightGBM, CatBoostとある。

XGBoost
外部記憶装置から適宜、読みだして処理するときの問題。勾配統計のキャッシュミス。各スレッドに内部バッファ。

LightGBM
Leaf Wise 使用する決定器を葉に準じて成長させる。
Level wiseより計算量が少ない。最適な枝分けを探すための計算量削減。

CatBoost
Prediction Shift
Ordered Boostingで解決。

irisデータセットで分類。Light GBM速い。

LT2

馬場はるか Hivemallを使ってSQLで機械学習

お勤め : ブレインパッド
総合研究大学院大学天文科学専攻
物理MLのmeetup宣伝

Hivemallとは何で、どこでどう使うか
Hivemallを使うと何が嬉しいのか

Hadoop : 並列分散処理ができる
Hive : Hadoop上でDBMSの機能を提供

Hivemall : 機械学習ライブラリ。HiveQLクエリを使って学習から予測まで。

HivemallでXGBoost実装された。クエリで学習・予測を行う。
モデルや予測結果はテーブルで管理。

Hivemallが有効な場面。
普通は、DBから分析用環境に出して学習・予測してDBに戻す。
Hivemallでは分析用環境が不要。DB内部で事足りる。転送のプロセスにおけるエラーが起こりにくい。

公募LT3

morishita SHAP(SHapley Additive exPlanations)で機械学習モデルを解釈する

お勤め : TVISION INSIGHT
予測値の理由付け。出てきた予測の説明責任。解釈性。施策の方向性。
平均と個人の予測値の差分を分解する。
各特徴量の貢献度による差分の分解。
線形モデルなら上手くいきそう。複雑だとどうする。
協力ゲーム理論のSharpley Valueで分解。
A,B,Cのプレイヤーのアルバイト報酬のフェアな配分。貢献度をどうやって測るか。限界貢献度。
全ての順番、元の状態に対してそのプレイヤーが参加することによる報酬の増分を計算して平均して合わせる。Sharpley Value。良い性質を持っている。

Sharpley Valueを機械学習に応用する = SHAP
報酬ではなくて予測値を使う。

ない変数は周辺化して消し飛ばす。

pythonのモジュールにshap。RのパッケージのDALEX(Rのパッケージについては過去のTokyoRの発表が参考になるかもしれない)。

How to use in R model-agnostic data explanation with DALEX & iml

water fall plot
dependence plot
summary plot
平均的なふるまいだけでなくて外れ値のところも見ることができる。

ただし、モデルのふるまいを解釈してるという点、モデルを足し算的に解釈している点、には注意が必要。

LT3

池澤龍星リサーチデータと付き合うために大事なこと

お勤め : FiNC

グロースエンジニアリングとは何か。

外部ツールを導入してみたが。
ツールを取り巻く環境や状況。
手動で管理、ツールログイン制限、APIがない、データ形式が特殊。
手間がかかる。
Redash, RedShift、整形をスクリプトで行うようにした。

導入後に問題が起きないかを想定、データの整形、自動化で定期実行。
一部の人しか使えないような状況を解消する。

自分だけでやろうとしない。ちゃんと困っている人と議論して、どこが問題の本質なのかを見極める。

公募LT4

Daiki Futami 意思決定に回帰分析を利用した話と3つの学び

お勤め : Retty

意思決定者のアクションに繋がる成果物を把握しよう
交互作用な考慮しなｇらMECEな分析設定に落とし込もう
信頼区間やp値から有効そうな説明変数を見つめよう

食を通じて世界をハッピーに。

先輩枠

太田満久 @ohtaman

お勤め : ブレインパッド。CDTO

データ分析とベンチャーと上場とキャリアの話。

Java開発エンジニア → NLPチーム → Chief Data Technology Officer

入ったときはベンチャーだったところから、上場企業。

ベンチャー時代のブレインパッドに惹かれた理由

もっとデータを活用しようって姿勢がよかった
上場体験をしてみたかった
ベンチャーの泥臭い作業しときたかった

上場前の雰囲気。理想より売り上げという圧力を感じた。
経営陣と密なコミュニケーションがとれたのは良かった。

ベンチャーを選んで良かったのか

今の方が優秀な人が多いが、昔の方が多様性あった
整っていない組織で、管理されない自由だが責任が大きい
仕事は今の方が大きい仕事を取りやすい
お金の面に関して、福利厚生を含めるとなかなか大手に勝てない
株やストックオプションの可能性もあるが、状況次第
経営陣との距離の近さでモチベーションになる

10年間、影響が大きかったもの3つ

「Quick and Dirty」で仕事の効率を上げる姿勢。経営陣からのお言葉。完璧である必要はないから迅速にアウトプットを出すスタイルのこと。フィードバックをもらって出すことをサイクルにする。
「株式会社おおたまんだと思ってやてみな」経営陣からのお言葉。プレイヤーからマネジメントへ
部下への仕事の任せ方で失敗。
何をしたいか本気で考える。そのために何ができるのかを本気で考える。
人をつなぐ面白さ開発と分析の両刀人材ではなく、開発と分析をつなぐ仕組みを作ろうと考えた。人をつなぐ面白さ。コミュニティ活動。コミュニティのオーガナイザー。
好循環の自己強化ループに自分を巻き込む。一歩踏み出すのが大事。最初の勇気が大切。

物事を楽しめる、面白いと思えるということが大切。面白いことを自分から見つけ出す。これが一番大事

おわりに

分析とは何ぞや、どうすべきかと奮闘するタイプのものと、分析手法を紹介するタイプのものに大きく分けられるように感じました。両タイプとも楽しく聞けて面白かったです。前者については、最近読んだ『イシューからはじめよ――知的生産の「シンプルな本質」』を思い出しながら聞いていました。分析とは何かについて、自分なりに頭の中でまとまりかけているところなので、何かしらの形でアウトプットして、どこかで発表できる機会があれば発表してみたいなと思っているところです。

また参加できる機会があれば(発表できる機会があれば)、参加したいと思います。今回は参加させていただき、ありがとうございました。