きとのおもちゃばこ。

名刺の肩書が『データアナリスト』になったけど、実態が無いので途方に暮れてます。

【読んだ本】『サンプリングって何だろうー統計を使って全体を知る方法』

3000人の調査が200万人の調査より精度が高かったという、逸話のような話がある。

アメリカ大統領選挙の番狂わせ(前編)〜 標本調査における偏り

 

精度の高い調査のためには、「サンプリング」という概念がキーになってくる。

サンプリングって何だろう――統計を使って全体を知る方法 (岩波科学ライブラリー)

サンプリングって何だろう――統計を使って全体を知る方法 (岩波科学ライブラリー)

 

 本書は、統計数理研究所の「子ども見学デー」で実施された、
『BB弾サンプリング実験』が下敷きとなっている。

 

3行でまとめてみる
  • 一部の特徴からそれが属する母集団の特徴を推定するには、その「一部」が全体の母集団を代表しているという前提が必要。
    その前提を担保するためには、適切なサンプリングがなされていなければならない(1章)。
  • 社会調査では理論的なランダムサンプリングの実施が非常に困難。
    そのため、層化多段抽出法をはじめとした、手続きの負担を減らす工夫を取り入れている(2章)。
  • 生態調査の世界では、未知の個体数(≒母集団Nの値)を推定することがミッションの一つである。
    そのための方法の一つが捕獲再捕獲法である(3章)。

 

感想とか
  • 一見すると地味なサンプリングの世界について、
    子供向けのBB弾サンプリング実験や味噌汁など、豊富な例によって
    誰が読んでも「サンプリングは大切だ!」と思える構成になっている。
  • 本書で分かるのはサンプリングの意義に特化している。
    本書契機に「自分でサンプリングをやってみよう!」と思ったら、
    理論面でも手続き面でも、巻末を参考にプラスαの勉強が必要。それは仕方ない。
  • 社会調査や生態調査に限らずとも、
    分析に使っているデータが、適切にサンプリングされたものであるか、
    そもそもの「データ収集の手続き」を意識することの重要性を再認識した。
    「ID-POSデータは、非会員データ/対象店舗外データを取得できていないよ!」みたいな。

 

その他(インターネット調査のこと)

業務の都合上、インターネット調査をよく利用するのだが、
この場合は適切なサンプリングがされているのか、ちょっと分からない。

「男女20〜40代に、各性年代100人ずつ回収」のような割付によって、
標本の適切さはそれなりに担保されている気はする。

アンケートモニタの場合、「自ら選んで回答している人」に限られるので、
実質的に調査拒否のような事態が起こっていそうである。

また、そもそも「モニタに登録している人」しか標本に含めようがないので、
「ポイント狙いの節約志向でマメな人」バイアスがある可能性は十分にある。