霞と側杖を食らう

ほしいものです。なにかいただけるとしあわせです。[https://www.amazon.jp/hz/wishlist/ls/2EIEFTV4IKSIJ?ref_=wl_share]

Sports Analyst Meetup #5の後日譚々

Sports Analyst Meetup #5@株式会社ディー・エヌ・エー(懇親会スポンサー:NTTコミュニケーションズ株式会社SpoLive事業グループ)にてLTを行ってきました。

そのスライドがこちらになります。

speakerdeck.com

 

コードや分析の詳細記事は今週中に書きたいところです。

【追加 : 2019/11/08】

 Rのコードや分析の詳細はブログ記事で公開しています.
リリーフ運用指標MRTRの作成の学習記録その1

リリーフ運用指標MRTRの作成の学習記録その1 - 霞と側杖を食らう

リリーフ運用指標MRTRの作成の学習記録その2

リリーフ運用指標MRTRの作成の学習記録その2 - 霞と側杖を食らう

リリーフ運用指標MRTRの作成の学習記録その3

リリーフ運用指標MRTRの作成の学習記録その3 - 霞と側杖を食らう

 

今回はプロ野球ペナントレースにおけるチームのブースト(無理してる)の具合とタイミングを見るべく、データとして捉えやすいリリーフの運用に注目し、リリーフの運用の指標としてMRTRというものを作ってみたというものでした。野球は素人だし、セイバーメトリクスも学んだことがなく、指標の作成も未経験だったので、こんな感じでいいのかは分からないので、ご意見ご感想、お待ちしております。指標の作成は昔Jリーグの観客数の予測をしたときに災害の影響の特徴量やワールドカップの影響の特徴量を作ったときの感覚に似ていたような気がしました。

moratoriamuo.hatenablog.com

頭の中でイメージされる数字の動きを、持っているデータから変換を加えて炙り出していく感じは楽しいですね。今回のスライドには今シーズン、観戦して撮影した写真を使っていて、中身の出来不出来は置いておいて、いい野球観戦宣伝スライドになっているんじゃないかなと思っています。

 

以下でロングトークとLTに対する振り返りをメモ的に書いていきます。

 

spoana.connpass.com

 

・batter pitcher 2 vecの話

マネーボールフライボール革命、打球速度重視とMLBの野球環境の変遷が語られた後、野球データ分析技術の一つとしてbatter pitcher 2 vecを取り上げて解説されていた。野球の環境の変遷は、カードゲームの環境の変遷にも似ているところがあるように思えた。つまり、ある時期に突出した戦略・戦術が一強となっていくが、少し時間が経つと、それに対するメタ戦略が生まれてきて、環境が変わっていくというものです。遊戯王で言うと、かなり昔にはなりますが、墓地を肥やして戦うライトロードデッキが時代を席巻した後に、除外で戦うデッキが、ライトロードに対するメタとして出てきたというような感じです。極端な守備シフトも似たところがあると思っていて、シフトに対応して打てる選手には効かないような気がします。手を出したら、それに対するメタが出てくるというところが難しさなのかと。このような戦略的相互依存の環境を分析するのに、ゲーム理論が役立つと思うので、もう少し広まっていけばいいなと思いました。一方、機械学習寄りの分析手法には私は全然キャッチアップできていないので、そういったところも吸収していかねばと思った次第でした。

 

・野球界でのシステム導入事例

システム導入で、編成育成、コンディショニング、査定、分析映像において役立っているとのこと。選手に向けたカスタマイズも目指していて、リアルタイム性の追求、時間場所を問わない利用環境、選手視点でのデータ活用に注意しているとか。利用する上で、少しでも面倒くさいと感じてしまうと使いにくいので、どのサービスでもそこは変わらないのかななんて思っていました。可視化の重要性はやはりデータ分析が分析で終わらず、コミュニケーションして伝えることを考えると、これもまた野球に限らず普遍的だと感じました。メリットとコスト感でメリットが勝っていないと導入してもらえないとのことだが、メリットの定量化が難しさがあるのは、たしかにとなりました。現在は分析に割く時間より素材収集にかかる時間が大きく、分析に専念できるシステムを作っていきたいとのことでしたが、野球に限らず他のスポーツもこのような動きがあればなぁと。正しい知識の運用を強調されていたように思いますが、これはとても共感していて、データ分析は刃物の取り扱いと一緒だと私は思っていて、間違った分析をしてそれを伝えて意思決定につなげてしまうと、人を傷つけることがあります(ときには人の命すら奪ってしまう)。分析する人間はそのことを理解しておかないといけないように思います。

 

NTTコミュニケーションズ株式会社SpoLive事業グループの話

観戦のためのアプリケーションの話で、ラグビーに対応しており、懇親会でラグビーW杯決勝の試合をリアルタイム速報されていました。試合を見ながらみんなで盛り上がるのは楽しいですね。spoanaの人たちで集まってスポーツの試合観戦ができたら面白そうかななんて思いながら見ていました。

  

・ゴルフの話

SATソルバというものを研究していたとか。atmaさん(お会いしたことはないですが)の弟さんでびっくり。kaggleのオープンデータでゴルフのマネーを予測。機械学習の解釈。GAMはまだ勉強できていないので、勉強しなくてはいけないなと感じさせられました。

 

・バスケのOpenPoseによる投入予測
人体の骨格認識で姿勢からゴールに入るか予測。スラムダンクの三井や神を思い出しながら聞いていました。精度を上げて、汎化性能を上げるのは難しいが、深層学習なら両方達成しているようにみえる。統計数理研究所の今泉先生の研究がそれを示していると紹介。とがった関数でほじくることができ、なめらかでない関数で予測精度が上がるという表現が面白かった。DLは結局手を出せていないので、積んである、ベイズ深層学習の本を読まねばとなりました。

 

・プロテニスにおける疲れの影響の定量

「錦織は疲れていた」。試合時間の振れ幅が大きい。強さはイロレーティングの後悔されているものを使って、疲労度は前試合の試合時間+前試合の疲労度*疲労残存率と計算。残存率はRMSEを最小にするようにして設定。勝率と疲労度の差の関係を見出していた。テーマが疲労であるところと、モデルの作り方が、自分の発表に近いなと感じながら聞いていました。試合における疲れの重要性は、自分のバドミントンの大会出場での経験からいつも感じていて、試合の組み合わせ次第で疲労の蓄積が異なってきて、勝ち上がっても、最後の決勝で、勝てるかどうかはそこにかかってくるので、疲労のコントロールに気を使わねばと、最近、自分が年を食ってきていることもあって、強く感じています。

 

・テニスのフォーム類似度算出の話。

テニスつよいひと。あと、たぶんなのですが、マリオテニス強化学習していたのを過去に見たような気がします、記憶違いだったらすみません。データは自分で、アノテーションも自分で。spoanaの発表の難しいところの一つは、データの用意で、メジャースポーツのデータを利用するか、自分のプレーでデータを生成するか、人工データを生成するか、そもそもデータ以外の手法で分析するか、手法を紹介するかというところになると思います。まだ、自分のデータ生成のパターンはやったことがないので、やってみたいところ。あと、いつも思うが、動画や画像のデータをいじれる人はうらやましい。

 

・確率分布とスポーツの話

まつけんさん!資料がずるい。昔、似たような内容で資料を作ろうと思ったけど、これよりいいの作れなくて困ったことがある。今も、統計についての資料作りをしていて確率分布についてのパートは、まつけんさんの資料を引用しようと思っているところです。楕円の和の外にいくのはどれくらいでカイ二乗分布を導入したところも、とてもよかった。あと、帰ってスラダン読みたくなって山王戦のところを読み返して、うおおおおおおってなってしまいました。

 

・おちんぎんで見るプロ野球の話

能力と年俸を可視化。球団ごと分布。1億円の壁など。成績と年俸の位置関係。聞きながら、労働経済学が頭の中でチラついていたのと、心理学の清水先生がGLMやGLMMで成績と年俸の関係を説明していたのがあったなぁと思い出していました。自分の発表の前で、めっちゃ笑いとっててずるいーって思いながら、発表前の緊張に震えてました。

 

・野球のリリーフの運用指標の話

野球好きの人もそうでない人もぜひ見てほしいスライド。野球分からなくても野球場に行きたくなる。そんなスライドに思われたらいいなと。

 

・野球の継投の話

ロッテの吉井コーチのコーチング方針について、パリーグの継投データを眺めながら、方針の一貫性を確認。4段階の話で、どこからどこへの段階へ押し上げるのが上手いのかというのを聞きながら、個人的には教育系のアルバイトをしていて、どこからどこへの押し上げみたいなことを考えたことがあったなぁと思い出してました。あと、どうして平井が投げてるんですか。つゆぽんさんとはspoana前から継投の話を分析したという話をしていて、二人で継投をテーマにやることになりました。扱うのが同じようなデータでも違った見方、見せ方があって、面白いなと。ロッテは3日以上連続登板した経験のある投手3人のみ。他の球団に比べて格段に少ないとのことなので、MRTRで確認してみたいところ。パリーグはDH制で継投策も違ってくるかもですが、分析の詳細記事を上げるときに、追加でその分析も入れておきます。

 

・野球とサッカーの声援のチカラの話

まずは同調効果の紹介から。バドミントンの大会で線審してて、同調効果、若干分かるなぁと。そして、先行研究の紹介。音声ありの映像を見た審判とみてない審判のジャッジを比較、ホームチームの観客数などなど。スタジアムの形状、トラックが周りにあるスタジアムとないスタジアムと、イエローカードフリーキックの数をチェックしていた。切り口は面白いと思ったが、やはりここで気になるのが、内生性、交絡。両方に影響する因子、財政状態の違いは両方に影響しそうかと。財政状態の各種スタジアムごとで分布を見たいなと思いました。u++さんがツイートしていた、同じチームで違うスタジアム使ってるところとかの比較もやってみるといいかもというのは、サッカーのドメイン知識でなるほどと思いました。スライドでも丁寧な分析が必要かもと注意書きがあったので、さらなる分析が期待されるところです。

 

フットボールの現場の話

データ分析に対する壁をどう崩すか。プレーの各項目が1位で一見いいのかもしれないが、各プレーの質が向上すれば、それらのデータも変わった来るかもしれない。練習のクロス上げの位置と実際の試合のクロス上げの位置が異なる。外国籍選手の事例、データに慣れている。その選手は速いのか。細かいデータを言うよりも、大丈夫、お前の方が速いから。そっちの方が、効果的だった(かもしれない)。お医者さんの患者さんとの付き合い方に似ているのかもしれないなぁと感じました。言葉の選び方、どの情報をどう伝えるか。お医者さんに限らず、人と人のコミュニケーションの基本なのかもしれないですが。

 

・トラッキングデータを用いたフォーメーションの自動検知
フォーメーションは電話番号にすぎない。(意味ない)。グアルディオラの監督だとか。リヴァプールの分析に、量子力学の博士が関わっているとか、育成時代から食事のデータも含めて扱っているとか、分析への力の入れようの話とかすごかった。トラッキングデータはspoanaに初めて参加してからずっと気になっていて、重心とるのは当たり前として、他のモーメントを取ったり、それらの変化と点の入り方や勝率の関係、どんな選手がいると、どの陣形がベストなのかとか、浮かぶ疑問は多いです。トラッキングデータの分析している人がいたら、ぜひお話ししてみたいところです。

 

登壇する機会を与えてくださったSports Analyst Meetup運営の皆さま、参加者や関係者の皆さま、ありがとうございました。DeNAで野球の話をできたというかけがえのない経験を積めてとてもよかったです。データが豊富過ぎて、資料が膨れ上がってしまい、発表時間を超過してしまったところは申し訳ないです。再び登壇することがあれば気をつけます。。。

今年から始まったspoanaですが、5回中3回参加して、3回全部LTさせていただきました。スポーツを軸に色んな分析や知らなかったスポーツを知ることができる場で、他にはない、とても面白い場だなと毎度感じております。面白い場に貢献できるよう、次に参加するときもLTをもって参加したいので、絞れるネタを来年までに探しておきたいと思います。お疲れ様でした。