きとのおもちゃばこ。

名刺の肩書が『データアナリスト』になったけど、実態が無いので途方に暮れてます。

【読んだ本】サンプリングって何だろうー統計を使って全体を知る方法(2018)

3000人の調査が200万人の調査より精度が高かったという、逸話のような話がある。

アメリカ大統領選挙の番狂わせ(前編)〜 標本調査における偏り

 

精度の高い調査のためには、「サンプリング」という概念がキーになってくる。

サンプリングって何だろう――統計を使って全体を知る方法 (岩波科学ライブラリー)

サンプリングって何だろう――統計を使って全体を知る方法 (岩波科学ライブラリー)

 

 本書は、統計数理研究所の「子ども見学デー」で実施された、
『BB弾サンプリング実験』が下敷きとなっている。

 

3行でまとめてみる
  • 一部の特徴からそれが属する母集団の特徴を推定するには、その「一部」が全体の母集団を代表しているという前提が必要。
    その前提を担保するためには、適切なサンプリングがなされていなければならない(1章)。
  • 社会調査では理論的なランダムサンプリングの実施が非常に困難。
    そのため、層化多段抽出法をはじめとした、手続きの負担を減らす工夫を取り入れている(2章)。
  • 生態調査の世界では、未知の個体数(≒母集団Nの値)を推定することがミッションの一つである。
    そのための方法の一つが捕獲再捕獲法である(3章)。
本書のもくじ
  • 第1章 サンプリングの有用性──その科学的根拠
  • 第2章 世の中の動向を捉える──社会調査とサンプリング
  • 第3章 生物を数える──生態調査におけるサンプリング
感想とか
  • 一見すると地味なサンプリングの世界について、
    子供向けのBB弾サンプリング実験や味噌汁など、豊富な例によって
    誰が読んでも「サンプリングは大切だ!」と思える構成になっている。
  • 本書で分かるのはサンプリングの意義に特化している。
    本書契機に「自分でサンプリングをやってみよう!」と思ったら、
    理論面でも手続き面でも、巻末を参考にプラスαの勉強が必要。それは仕方ない。
  • 社会調査や生態調査に限らずとも、
    分析に使っているデータが、適切にサンプリングされたものであるか、
    そもそもの「データ収集の手続き」を意識することの重要性を再認識した。
    「ID-POSデータは、非会員データ/対象店舗外データを取得できていないよ!」みたいな。 
その他(インターネット調査のこと)

業務の都合上、インターネット調査をよく利用するのだが、
この場合は適切なサンプリングがされているのか、ちょっと分からない。

「男女20〜40代に、各性年代100人ずつ回収」のような割付によって、
標本の適切さはそれなりに担保されている気はする。

アンケートモニタの場合、「自ら選んで回答している人」に限られるので、
実質的に調査拒否のような事態が起こっていそうである。

また、そもそも「モニタに登録している人」しか標本に含めようがないので、
「ポイント狙いの節約志向でマメな人」バイアスがある可能性は十分にある。

こんな人におすすめ
  • 選挙速報が20時ちょうどに『当確』を出すのが不思議な人
  • 卒論でアンケート調査を取ろうとSNSでリンクを拡散しようとしてる人
  • 具体例で物事を考えるのが好きな人