霞と側杖を食らう

ほしいものです。なにかいただけるとしあわせです。[https://www.amazon.jp/hz/wishlist/ls/2EIEFTV4IKSIJ?ref_=wl_share]

Japan.R 2019の後日譚々

はじめに

Japan.R 2019 @DeNA に行って参りました。久しぶりのRコミュニティの勉強会への参加でしたが、やはり、新たな発見があったり、勉強欲が刺激されたりしていいですね。発表者の方々が生き生きと楽しそうに発表されていていいなと。

以下、発表を聞きながらメモしたことや考えていたことを、書き連ねています。読みにくいところがある点と、敬称等は略している点はご了承ください。あと、後半疲れが出てきて、分量が有意に落ちてるのもお許しください。

初心者向けセッション

今日からはじめるR~キホンから分析、グラフ作成までを20分で~

発表者: タナカケンタ

  • オブジェクト名 <- データ
  • 関数名(オブジェクト名)
  • オブジェクト名[要素番号]
  • library(パッケージ名)

表構造のデータフレーム。パッケージとはRの機能を拡張するための関数群。tidyverseファースト。 {DataExplorer}パッケージは知らなかった。 DataExplorer::create_report(iris)と試してみたが、これだけで、一番簡単なレポートが仕上がってしまって、びっくりした。

初心者に向けた、フレーズのチョイスや何をテーマにするかといった伝え方がとても参考になった。

Rを布教する際、どんな言葉を使うか、どこからどこまで説明するかに悩む。何が良いかは伝える相手によって異なる(これは教育・コーチングの難しさと同じだ)。相手のパターンとして、次の4種類が思い浮かぶ。

  1. そもそもやる気・学ぶ気がない人
  2. Excelは使うけど、プログラミング言語は使ったことが無い人
  3. 他の言語を少し使ったことがあるけど、Rは使ったことが無い人
  4. 他の言語を何個も知っていて、やろうと思えば勝手に学べてしまう人

今回は、最低限学ぼうとする姿勢がある人を想定しているので、1番は対象としない(教育・布教の面で考えるならば一番重要な層なのかもしれないが)。2、3、4の人々に伝えることを考える。2の人には、プログラミングの抵抗感を和らげることが最重要で、簡単に便利なことができることを伝えると良い気がする。3の人にはRの有用さと学び方を伝えて、スウィッチングコストを下げさせることがキーとなるように思う。4の人は、好奇心をくすぐるようなことをやっていれば、勝手に学んでくれる。

2と3の人が混在するところで、どうやって伝えるかを今はとくに考えているが、やはり難しい。以下のブログ記事も参考になるかもしれないのでリンクを貼っておく。

http://kamonohashiperry.com/archives/2231

始めてのLT

自分が便利に生きるためにRとShinyを使う

発表者: kubota

複数グラフにおいて、一つのデータ点をクリックしたら、それに対応する他のグラフの点が出てきて欲しい。外れ値の処理の現場とのコミュニケーションの効率化を図りたい。{plotly}と{ggpairs}とshinyでやってみようとしている。

Shinyでインタラクティブにコミュニケーションが取れるのはいいなと個人的には思いながらもShinyにはまだ手が出せずにいる。

スポーツ番狂わせの統計学

発表者: 窪田誠

きっかけ、ラグビーは番狂わせが起きにくいと言われているところから。本当に番狂わせが起きにくいのか。起きにくい競技はどれ。あるとしたらどんな性質・特徴。これらをテーマにしている。ラグビー、サッカー、テニス、相撲と上位のプレイヤーと下位のプレイヤーの対戦データで勝率計算をしている。

自分でもこの話はテーマにしてみたいと思っていたが、アプローチが思い浮かばず、お蔵入りしていたところだった。とんねるず石橋貴明のようにスポーツのドメイン知識があったらできるかななんて思っていたりする。続く分析が気になるところ。

昔私がspoanaでLTをしたバドミントンの話も少し関連するところがあるのでリンクを貼っておく。 http://moratoriamuo.hatenablog.com/entry/2018/12/21/010422

Rで音声解析をしてみる

発表者: 松本涼

DTM(デスクトップミュージック)は音声素材のパッチワーク。ラベルを自動でつけてしまいたい。手動は辛い。今回はドラムの音声素材を分類。{tuneR}パッケージを使っている。スペクトログラムというものを特徴量として、SVMで分類してみた。

音声データの分析は手を出したことがないので少しずつ知っていきたいところ。1月に開かれるmusic analytics meetupが楽しみになってきた。

Long Talk

三国志で学ぶデータ分析

発表者: ill-identified

史書と創作での扱いの差異があることを見る。歴史家ではないので、三国志の人物像がどう変わってきたかを数値検証。ゲーム『三国志』のゲームデータのパラメータ。スクレイピングで収集するも、非公式な一覧表、正しさとフォーマットの問題がある。名寄せ処理。誤記・表記のゆらぎ問題。入力ミス、表記ゆれ、同姓同名。shift_jisに含まれていない文字への代用。正規表現で漢字かどうかを判定。色々やってみるが、やはり人力処理は辛い。機械学習でなんとかしたい。 文字画像に対して教師無学習。ビットマップ画像で類似度の計算。テンプレートマッチング。{factorextra}で距離の計算できるとのこと。相変わらず凝っていて面白い。あと、この発表で、重要なのが、無理に難しい手法を使わず、簡単な手法でできるならそれでやってしまおうという姿勢だと思われる。

メタアナリシスっぽいので公平な入試を受けたい

発表者: med_ku

東大学部入学式祝辞と東京医科大不正入試問題。問題がきっかけになって行われた81大学の調査結果のデータを使用。男性と女性の合否の比率がある。分割表の検定とメタアナリシスをやっている。

メタアナリシスは勉強しているところなので、そのうちブログ記事を書きたいところ。統計手法を使って何かを言うことは難しい。よく私が思うのは、データ分析は刃物の取り扱いと一緒だということだ。間違った分析をしてそれを伝えて意思決定につなげてしまうと、人を傷つけることがある(ときには命すら奪ってしまう)。

闇雲に手法を使ってみて数字だけ追っかけるのではなく、裏側の構造や統計的手法の暗黙化の仮定を考えないといけないように思う。最近話題になった話で言えば、統計的差別と自己成就の話だろうか。林貴志先生(@tkshhysh)の昨年のツイートを引用しておく。

「アマゾンのAIが統計的差別をしている話が最近出たが,統計的差別は「理解なき正しい予測」の典型.1「何でか知らんが○○は能力が低いのが統計的に見て取れる」→2そう見られてしまっては努力しても無駄→3予測が自己成就的に正しい(2の理解がなくても),のサイクルが成り立ってしまうので.」

女子学生と浪人生で考えるなら、どういう人がどういう戦略でもって行動するかが作用するように思う。浪人生と女学生の受験戦略、現役生と浪人生の性質の分布の違いとか、そういうのを丁寧に見ないといけない。現役生の外れ値級に成績が良い人は次の年には浪人せずに消えていくこととか、現役志向は男女で差がないのか。あるとしたら、それは社会の構造による問題なのかとか。

Lightning Talk

イベント参加者を可視化したい

発表者: doradora09

compassデータを収集・集計・可視化。{VennDiagram}がベン図を描くのに便利。

KaggleとRStudioコンペの紹介

発表者: u++

Rstudioのコンペの紹介。Kagglerはこわくないよ。Kaggle入門本、楽しみ。

M-1グランプリ直前!?(直後!?)漫才の可視化に挑戦してみた

発表者: fujitako

発話内容と話者のデータ。発話ごとにボケフラグを命を削ってアノテーション。立ち位置の動きも。和牛、ジャルジャル、トムブラウンを対象。ボケツッコミの時間配分やリズムが可視化で見て取れる。漫才を自動生成できて、それをボーカロイドとかがやるような世界になったら、すごいだろうなと個人的に妄想していた。

細菌叢のリアルワールドデータをビジネス活用するためのWebAPI作成

発表者: watanabe_st

株式会社サイキンソー。Shinyでwebアプリ。Rを使っている人が社内にいなかったからShiny使う。エンジニアチーム、サイエンスチーム、事業開発チームで分業している。データリテラシーがバラバラで共有難しいし、かといって毎回パワポを作って伝える形にするのはめんどくさい。やはりShinyか。

tidyverse(再)入門

発表者: 神沢雄大

2014年{dplyr}, 2016年{tidyverse}の登場.Base R native と tidyverse naitive。Base R native が tidyverse adaptiveになるために色々試すしかない。tidyverseのcoalesce()とseparate()が便利と紹介。続きはアドベントカレンダーにて。

最初にRをどう布教するかということについて書いたが、この話も悩んでいるところで、tidyverseだけ教えてしまうと昔のコードが読めないし、tidyverseのありがたみが見えてこない。どうやって初心者に教えるべきか考えているが、結論が出ずにいる。

tidymodelsによるtidyな機械学習

発表者: morishita(@dropout0009)

{tune}パッケージでtuningができる。tidymodelsが機械学習で便利だと聞いているが、分かりやすい日本語情報が増えてきてうれしい限りです。

データサイエンティストに同じクエリは二度も通じぬ

発表者: Takahiro Yoshinaga

聖闘士星矢。クロス集計を、何度もやらされる。性別ごとにやりなさい。年齢ごとにやりなさい。そんな風に言われて、毎回同じsummarize書くのは面倒くさい。そんなとき、{mmetrics}パッケージが便利。異なる集計軸でのクロス集計を簡略化するパッケージ。defineで集計指標を一度登録して、addで。LINEの広告サービスに分析チーム feat. 大仏様で開発されたとか。使ってみたい。

Rで書くJava仮想マシン (R上でJavaを動かしてみた)

発表者: @igjit

Rで変なものを作る人。発想がおかしい(すごい)。

Apache Arrowについて(仮)

発表者: yutannihilation

オンメモリで大量データを扱うためのプラットフォームをつくるプロジェクト。オンメモリに適したデータフォーマットを定義。言語にライブラリを提供。共有メモリ上で同じデータを見る。{arrow}パッケージと{sparkly}パッケージ。Apache Parquetとは列方向のデータフォーマット。デフォルトで圧縮が効いている。列を指定して読むこともできる。全部メモリに乗らないケースでも使えることある。

こういうデザイン思考の人たちのおかげで我々は生きていけるんだなぁと感謝。

もっとインタラクティブ

発表者: ymn753

{DT}パッケージ、有名。{reactable}。こういうのやはり手を出してみたい。

Regression analysis using R

発表者: はしもん

研究分野は言語学。言語音声を記憶・計算している。 回帰分析をRでやることを基本から。こういう発表、たしかに重要だなと。最新の知見とか難しい手法とかも大事だけど、こういう基本からコツコツと積み上げることも大切。

今再びのRによる因果推論

発表者: nino_pira

元因果推論の人。傾向スコアのブログ記事はホント大作。お話ししたかった。music analytics meetup楽しみ。TVISION INSIGHTSの方、ちょこちょこ見かける気がする。

グレブナー基底MCMC

発表者: kyusque

ぶなぶな。グレブナー基底。名前は知っているけれど、何も知らない。分割表。代数統計。333などもできるところがよいかも。

野球ネタで何か

発表者: @flaty13

DeNAだし野球をテーマにしたとのこと(わかる!!)。実力差が無いときのシミュレーションして勝率の分布を出してみた。番狂わせの話ともつながるように思える。

身近なものをデータにしてサイエンスする

発表者: 市川太祐

盆栽日記の人。医療博士。『前処理大全』の著者の会社。 人生とは能管。能管とは五人囃子の笛のこと。出てきたら掴まないとすぐ流れる。試し吹きが時間短い。そんなわけで、主観に流されやすい。判断をもっとうまくしたい。データサイエンスで意思決定の援助をしよう。 先行研究を探すと『楽器の音色を探る』とあるがフルートだ。 先にも出てきた{tuneR}でスペクトログラムを見てみる。高い竹の笛と安いプラスチックの笛で見る。高温で差が、倍音構造で見えるとか。同じ竹の材質で見てみると、少し違いが見える。これがキラキラか。感性を支持するような客観的所見は得られるところがよいとのこと。

Rのコミュニティを始めた話

発表者: @tachyon7776

仙台R。牛タン!コミュニティ運営をしている方々のありがたさや。前回、SHISHAMOのLIVEと被ってしまって行けなかったが、次回のSendai.Rこそ参戦したい。

このIRのグラフがすごい!上場企業2019

発表者: ito_yan

毎年恒例の。「すごい」グラフ、もっと大々的に取り上げられて、それはアカンという社会常識になってほしい。

スポンサーLT

発表者: DeNAさん

リクルーティング。もし仮に自分が行けるとするなら、DS枠になるだろうか。会場提供ありがとうございました。

さいごに

お疲れ様でした。Japan.Rは去年に続き、2度目の参加でしたが、今年も楽しかったです。来年は登壇者として参加できるように、Rおじさんとして鍛錬を積みたいと思います。ありがとうございました。