きとのおもちゃばこ。

名刺の肩書が『データアナリスト』になったけど、実態が無いので途方に暮れてます。

【R】みどりぼんを肴にRのお勉強をしてみる(その1)

RもSQLも満足に使えないうちに、

今度はかの有名な「みどりぼん」を読まざるを得なくなったので。

 

とりあえず、今回は2章まで。

ポアソン分布なるものがあるんだよ!」が到達点。

拙いコードですが、以下に勉強用に書いたコードも公開してあります。

RPubs - みどりぼん第1,2章

 

 みどりぼん(第1,2章)で学んだこと

  • ポアソン分布
    ゼロ以上の離散値で、条件特になし、平均≒分散のときに使えるやつ。
  • 最尤推定
    「さいゆうすいてい」と読む。
  • 尤度
    あてはまりの良さの指標。
    y1,y2,y3...ごとに「その事象が起こる確率」をそれぞれ求めて、
    それらを全部かけ合わせたもの。*1
    この数値が大きいほど、推定した分布が当てはまってるといえる。
    値がめっちゃ小さいので、ふだんは対数尤度を用いる。
  • 最尤推定
    対数尤度(または尤度)が最大になるλ(平均)のこと。
    対数尤度の関数の極大値(微分して傾きがゼロ)のところらしい。*2

Rを使ってて学んだこと

  • Rmarkown
    思った以上に良さそう。共有向き。*3
    改行もリンクもろくに使えていないのが難点。
  • ggplot2
    よくわからない。
    縦持ちデータの方が扱いやすいけれど、そのためのデータ前処理が面倒。
  • パイプ記法
    % > %に慣れてきた。コレ無しじゃコードが書けない。
  • その他
    Rでfor文をはじめて使った。*4

感想

  • みどりぼん、いつ分からなくなってもおかしくない。
    2章中盤から急に時間がかかるようになった。
  • ggplot2とかdplyrとかを使ってみたがために、
    思うように行かずに余計な時間が取られた。
  • Rmarkdownは結果がキレイに整理させるので感動する。
  • とはいえ、この密度で最後までやり通すのは無理かもしれない。

 

*1:つまり、すべての事象が「かつ」条件で起こる確率。Rの関数ではprodを使った。

*2:微分できないのでRのoptimize関数で代わりに頑張ってもらった。

*3:そのままブログ記事にしたかった

*4:図2.9の最尤推定値のばらつきヒストグラム作成にて。頑張った。