2013参議院選挙の出口調査の検証
ボランティアが杉並・桃井第三小の投票所で実施した出口調査の結果を報告している
https://twitter.com/Akira50/status/358965623079968768
https://twitter.com/Akira50/status/359095584591851521
https://twitter.com/Akira50/status/359093432972619776
http://velvetmorning.asablo.jp/blog/2013/07/22/6911871
http://togetter.com/li/537175
https://www.facebook.com/permalink.php?story_fbid=1395477544005440&id=100006296220307
表にまとめると以下となる。 http://www3.nhk.or.jp/senkyo/#skh_3400 にある杉並区の公式集計結果とも比較してみる
出口調査 | 公式発表 | |
---|---|---|
山本太郎 | 19.39% | 15.2% |
自民・丸川 | 16.67% | 19.2% |
民主・鈴木 | 15.45% | 10.8% |
共産・吉良 | 12.58% | 12.4% |
その他 | 35.91% | 42.4% |
サンプル数 | 660人 |
確率計算
このような得票率のズレがどのぐらいの確率で生じるかは「X2(カイ二乗)適合検定」という方法で計算できるそうだ。計算すると確率は1%以下(0.0006%)となった。
1%以下の範囲は棄却域と呼ばれる。棄却域なので公式発表は正しくないのではないかという結論になる。棄却域の解説とカイ二乗検定の原理は http://kogolab.chillout.jp/elearn/hamburger/chap3/sec0.html の説明がわかりやすかった。
計算の詳細は以下
エクセルで計算
サンプル数660人なので得票率の表を660/100倍してみる。
人数 | 出口調査 | 公式発表 |
---|---|---|
山本太郎 | 127.974 | 100.32 |
自民・丸川 | 110.022 | 126.72 |
民主・鈴木 | 101.97 | 71.28 |
共産・吉良 | 83.028 | 81.84 |
その他 | 237.006 | 279.84 |
これにエクセルのカイ二乗検定をする関数CHITEST
http://office.microsoft.com/ja-jp/excel-help/HP005209012.aspx
を適用する
= CHITEST(B2:B6,C2:C6) = 5.87363E-06
約 0.0006% の確率となった。
公式発表の得票率を仮定すると、この出口調査の結果になる確率は0.0006% のようだ
別解 Rで検算
Rで計算してみた。計算結果は約0.0006% の確率となった。以下は計算手順の詳細
http://www.biwako.shiga-u.ac.jp/sensei/kumazawa/tahenryou/chisqr.pdf の「例題 6.2. メンデルの遺伝の法則」の検定と同様の計算を上記の得票率でもしてみる
> o <- c(127.974,110.022,101.97,83.028,237.006) > prob <- c(15.2,19.2,10.8,12.4,42.4)/100 > chisq.test(o,p=prob) Chi-squared test for given probabilities data: o X-squared = 29.6108, df = 4, p-value = 5.874e-06
約 0.0006% の確率となった。
公式発表の得票率を仮定すると、この出口調査の結果になる確率は 0.0006% のようだ
考察:何故こんなに小さい確率なのか
自民・丸川の結果のみ検証してみると
> o <- c(110.022,660-110.022) > prob <- c(19.2,100-19.2)/100 > chisq.test(o,p=prob) Chi-squared test for given probabilities data: o X-squared = 2.7232, df = 1, p-value = 0.0989
確率10%で、ありえない数字ではない。他の候補者についても計算するとこうなる
候補者別に見た出口調査が"正しい"確率 | |
---|---|
山本太郎 | 0.3% |
自民・丸川 | 10% |
民主・鈴木 | 0.01% |
共産・吉良 | 90% |
民主・鈴木と山本太郎がありえない確率になっている。これらが累積して0.0006% という尋常でない確率となっているようだ。
念のために実行したコードも以下に書いておく
共産・吉良のみ
> o <- c(83.028,660-83.028) > prob <- c(12.4,100-12.4)/100 > chisq.test(o,p=prob) Chi-squared test for given probabilities data: o X-squared = 0.0197, df = 1, p-value = 0.8884
で90%
山本太郎のみ
> o <- c(127.974,660-127.974) > prob<- c(15.2,100-15.2)/100 > chisq.test(o,p=prob) Chi-squared test for given probabilities data: o X-squared = 8.9894, df = 1, p-value = 0.002715
0.3%
民主・鈴木のみ
> o <- c(101.97,660-101.97) > prob <- c(10.8,100-10.8)/100 > chisq.test(o,p=prob) Chi-squared test for given probabilities data: o X-squared = 14.8136, df = 1, p-value = 0.0001187
0.01%
補足
- 計算に間違いがあるかもしれないので(特に「その他」の扱いとか)検証できる人はしてほしい。
- マイクロソフト エクセルのカイ二乗検定関数のマニュアルが妙なので(使用例で期待度数と観測度数が逆だったり範囲が変だったり)http://office.microsoft.com/ja-jp/excel-help/HP005209012.aspx 検算のためにRでも計算してみた。Rでもほぼ同じ値になったので、これが正解と思われる。 (しかし、ひょっとしたら= CHITEST(C2:C5,B2:B5) = 0.0017 = 0.17% が正解の可能性もあるが、どちらにしても1%以下だ)
- 公明党など他のさらに得票率が少ない候補のデータもあるようだ。ここで示したのと同じ様にエクセルで計算すれば同じような検証ができると思われる。
他の候補もデータがあるので表にしておく。こちらはあまりマメにタイプミスのチェックしてないので参考程度に
出口調査 | 公式発表 | |
---|---|---|
山本太郎 | 19.39% | 15.2% |
自民・丸川 | 16.67% | 19.2% |
民主・鈴木 | 15.45% | 10.8% |
共産・吉良 | 12.58% | 12.4% |
自民・武見 | 10.15% | 10.4% |
維新・小倉 | 7.73% | 7.2% |
大河原 | 5.15% | 4.9% |
ローランド | 4.70% | 5.9% |
公明・山口 | 3.94% | 8.8% |
その他 | 4.24% | 5.2% |
サンプル数 | 660人 |
> r <- c(19.39,16.67,15.45,12.58,10.15,7.73,5.15,4.70,3.94,4.24) > sum(r) [1] 100 > pp <- c(15.2,19.2,10.8,12.4,10.4,7.2,4.9, 5.9,8.8,5.2) > sum(pp) [1] 100 > o <- r*660/100 > o [1] 127.974 110.022 101.970 83.028 66.990 51.018 33.990 31.020 26.004 [10] 27.984 > prob <- pp/100 > chisq.test(o,p=prob) Chi-squared test for given probabilities data: o X-squared = 43.931, df = 9, p-value = 1.453e-06
0.00014%の確率だそうです
公明・山口だけに注目すると
> o <- c(3.94, 100-3.94 )/100*660 > o [1] 26.004 633.996 > prob <- c(8.8 ,100-8.8)/100 > chisq.test(o,p=prob) Chi-squared test for given probabilities data: o X-squared = 19.424, df = 1, p-value = 1.047e-05
0.001%という、これもあり得ない確率になりました