« 2011年07月07日 | メイン | 2011年07月10日 »

2011年07月08日

●random sampling

母集団populationの有する選好の分布を集約するときに,全数調査をしないでそれとできるだけ同じ情報量を持つ形で集約をしたいのであれば,random samplingをするしかない。だから,世論調査をするときには,普通はRDDを使って対象者を選び出す(もちろん,よく知られているように,RDDにも,「平日の昼間に自宅に在宅していて,かつ,長々と続く電話での質問に答えてくれるような人って,一定の傾向を持つ人の集合になる蓋然性が高いよねぇ」っていう問題点はあるから,完全に母集団の情報をそのまま集約できているわけではない)。

逆に言えば,random samplingをしなかった場合には,情報を提供することに伴う私的なコストをかけてまで敢えて情報提供をするインセンティヴのある人しか,情報提供をすることはなく(そしてそうでない人は,わざわざ情報提供何てしない),典型的なselection biasの問題が発生することになる。

そういうbiasってのは,あちらこちらで観察されるわけで,たとえば:
- 大晦日の紅白歌合戦の投票だと,特定の歌い手への投票が異様に多くなることとか
- AKBの総選挙の投票とか
- 会社法改正のパブリック・コメントをやると,某団体系のたくさんの団体からまるでコピペしたかのような意見が大量に提出されるとか
- 司法修習生への給与廃止(*)への反対のための呼びかけをみんなに働きかけるとか(というか,デモとかは,みんなこの手の非random samplingの典型だよね)
- 新型東北新幹線の名称公募で「はつね」が一位になったりとか
のように,無数にある。で,そういうのが,母集団の選好分布をそのまま反映した結果になってると思い込んでいるとしたら,それはそういう風に解釈する人がナイーブすぎると言われても仕方がなさそうだ。

続きを読む "random sampling"