« preparing for plum works | メイン | construction management »

2012年06月14日

zipf's law

FBで流れてきた,「AKB48の得票数はZipf's lawに乗るのか?」という分析で,Google検索数は乗るけれど,得票数はあまり乗らない,という評価がある。でも,この得票数の方のグラフって,縦軸と横軸が対数化されていなくて,Zipf's Lawの検証としてはおかしくないか?と思って,念のために作り直してみた:

(赤い実線はlinear fit,緑の破線はlowess fit)

引用先にある「1位は完全に外れていて、2~6位、7~11位、12~16位で別々の線に乗っていると見える」という感覚は,確かにそういう感じがする。ちょっと各部分の傾きのイメージが違うんだけれども。
ちなみに,OLSの推定結果は

Ln(vote) = 11.78 - 0.544 Ln(rank)
(SE on beta=0.0620)
adjusted R^2=0.8353

となっていて,引用先のGoogle検索数の場合に比べて,R^2のパフォーマンスが多少悪い(そもそもデータが違うので,R^2を比較することにあまり意味はないけれど)。順位と得票数は高い相関関係を持つのは当たり前なので,その中で0.84っていうのは,確かにやや低めな印象を受ける値ではある。

ちなみに,全員の得票数について同じ分析をすると,こういう形になる:

これを見ると,順位の低いところほどあまり「票の操作」がなくて,上位(特に11位以上)ほど怪しい,ってことが分かる。

12位以下(特に22位以下)は,ほぼlinear fitに乗っているので,「一人でCDを何枚も買う」っていう行動はあんまりない(あるいは,あっても,それによってさほど得票数が影響されていない)のに対し,11位以上(あるいは21位以上)については,そういう行動が強い(あるいは,そういう行動による得票数への影響が特に強い),って言えそうだ。

トラックバックURL

このエントリーのトラックバックURL:
http://www.law.tohoku.ac.jp/~hatsuru/cgi-local/mt/mt-tb.cgi/2577

コメントする

(初めてのコメントの時は、コメントが表示されるためにこのブログのオーナーの承認が必要になることがあります。承認されるまでコメントは表示されませんのでしばらくお待ちください)