Rでベイズ統計学の学習記録 - 霞と側杖を食らう

【学習動機】

昔、MCMCやらなんやらは学んで、少し実装したことがあったが、

色々忘れていることも多いし、Rで手軽にできるようになっておきたいと思って、

J.アルバート『Rで学ぶベイズ統計学入門』

http://amzn.asia/d/hbKIgqd

をやっていくことにした。

【学習記録】

＜総括＞

LearnBayesパッケージにデータセットが豊富。

パッケージの重要な関数の作り方もあるのでわかりやすい。

練習問題。答えがあればなおよし。

密度や分布、周辺尤度あたりの言葉の使い方が気になった。和訳の問題かも。

やはり、BDA3を読むべき。

ｃ1：R入門

LearnBayesパッケージ。

基本的な使い方の紹介。

ｃ2：ベイズ的思考への誘い

・割合pのベイズ推定

事前分布の設定の仕方。

離散事前分布の利用

LearnBayesのpdisc関数で計算。p discreteの意味か。

連続事前分布（ベータ事前分布）の利用

共役の事前分布で、簡単に計算可能。

ヒストグラム事前分布

事後密度をカバーする区間でpの値のグリッドを選定する

このグリッド上で尤度と事前密度の積を計算する

それぞれの積を、それらの合計で割って正規化。これによりグリッド上の離散確率分布によって事後密度を近似している

Sample関数を使って、この離散分布からランダムな復元標本を抽出。

こうして得られたシミュレーション標本は事後分布からの標本を近似している。

予測

離散事前分布

LearnBayesのpdiscp関数で予測密度計算。

ベータ事前分布

LearnBayesのpbetap関数で予測密度計算。

任意の事前分布から予測密度を計算できる便利な方法の一つがシミュレーションによるもの。

ｃ3、ｃ4　１パラメータモデル、複数パラメータモデル

ｃ５：ベイズ計算入門

前２章では事後分布を要約する２タイプの方策。

ひとつは、サンプリング密度が指数分布族など周知の関数形ならば、パラメータを直接シミュレーションできる。もうひとつは周知の関数形でない場合、緻密な点のグリッド上で事後密度の値を計算して、これらの値が集中する離散事後密度によって、連続形の事後密度を近似できる（ブルートフォースと呼ばれる）。

本章では別のアプローチ。一般的なアプローチの一つが、モード周辺で事後分布の挙動に基づく方法で、多変量正規近似となり、最初の近似として役に立つ。続いて、事後分布の要約の計算にシミュレーションを利用する方法。事後分布が標準的な関数形ではない場合、適切に選ばれた提案密度の棄却サンプリング。重点サンプリングとSIR法のアルゴリズムは積分計算し、一般の事後分布からシミュレーション。SIR法のアルゴリズムは、事前分布と尤度関数の変更に対して事後分布が敏感か調べられる。

事後分布の要約の多くは積分で表現できる。関数h(θ)の事後平均、h(θ)が集合Aに入る事後確率、関心のあるパラメータの周辺密度。これらは積分計算で求める場合、数値的に評価するが求積法は問題が限られる。

パラメータを再定式化して、近似しやすい形にする。

近似の一つは、事後モードにもとづく近似。多変量事後分布の要約を行う方法の一つが、そのモード周辺の密度の挙動を調べること

モード周りで多変量正規分布で近似するためにはモードを求める必要がある。

モードを求めるための汎用的な最適化アルゴリズムがニュートン法やネルダー・ミード法。

棄却サンプリング、重点サンプリング、サンプリング重点リサンプリング。

小澄英男『ベイズ計算統計学』

http://amzn.asia/d/6LIzKmB

C.P.ロバート、G.カセーラ『Rによるモンテカルロ法入門』

http://amzn.asia/d/e72cRHI

あたりで勉強しなおしたい。

ｃ6：マルコフ連鎖モンテカルロ法