先日行われた第45回衆議院議員総選挙において、クチコミ@総選挙ではネットの口コミから、各選挙区の当選者を予想しました。
8月18日の公示日からはじまり、30日の投票日の前日まで予想を公開・更新していました。 投票日翌日の31日に開票結果との比較を公開しましたが、今回はもう一歩踏み込んで結果をみてみたいと思います。
8月30日時点の予想(8月29日までの口コミを元にした予想)と総選挙の開票結果は、300選挙区中241選挙区で当選者を的中さました。
全体的に民主優勢という状況は口コミによる選挙予測に18日の公開開始からはっきりと現れていました。 口コミによる予測はその後公開した、朝日新聞、日経新聞が情勢調査と高い一致を示しました。 (ただし、新聞が混戦とした選挙区は除いています。)
最終的には予想より自民党が健闘し、80.33%の的中率となりました。
表1.口コミ予想と投票結果の比較
| 予想/結果 | 自民 | 民主 | 社民 | 公明 | 共産 | 国民新 | 諸派・無所属 |
|---|---|---|---|---|---|---|---|
| 予想 | 40 (0) | 257 (0) | 0 (0) | 1 (0) | 1 (0) | 0 (0) | 1 (0) |
| 結果 | 64 | 221 | 3 | 0 | 0 | 3 | 9 |
18日の公開から、最終予想までの日々の予想の推移を見てみると、公開開始から投票日まで民主優勢を維持しています。予測は口コミの累積数を基にしているので、余程口コミが伸びが大きくないと、予想1位をひっくり返すのは難しいという予測モデルの事情もあります。
また期間中、大手新聞社の情勢調査の発表がありました。その時点での予想と新聞社発表の情勢調査の一致率を算出しました。
21日の朝日新聞社の序盤情勢調査では一致率が94%、22日の日経新聞社の情勢調査では一致率が87%、27日の朝日新聞社の中盤情勢調査では、一致率が92%でした。 口コミ予想と、各新聞社の情勢調査との、開票結果との一致率については後述します。
表2.予想の推移
| 日付 | 自民 | 民主 | 社民 | 公明 | 共産 | 国民新 | 諸派・無所属 | 的中 | 的中率 | 備考 |
|---|---|---|---|---|---|---|---|---|---|---|
| 18日 | 39 | 256 | 0 | 1 | 1 | 0 | 0 | 239 / 300 | 79.67% | 公開 |
| 19日 | 40 (1) | 255 (-1) | 0 | 1 | 1 | 0 | 0 | 240 / 300 | 80.00% | |
| 20日 | 40 | 257 (2) | 0 | 1 | 1 | 0 | 1 (1) | 241 / 300 | 80.33% | 候補者確定 |
| 21日 | 39 (-1) | 258 (1) | 0 | 1 | 1 | 0 | 1 | 240 / 300 | 80.00% | 朝日序盤情勢調査 |
| 22日 | 39 | 258 | 0 | 1 | 1 | 0 | 1 | 240 / 300 | 80.00% | 日経情勢調査 |
| 23日 | 39 | 258 | 0 | 1 | 1 | 0 | 1 | 240 / 300 | 80.00% | |
| 24日 | 39 | 258 | 0 | 1 | 1 | 0 | 1 | 240 / 300 | 80.00% | |
| 25日 | 39 | 258 | 0 | 1 | 1 | 0 | 1 | 240 / 300 | 80.00% | |
| 26日 | 40 (1) | 257 (-1) | 0 | 0 (-1) | 1 | 0 | 2 (1) | 242 / 300 | 80.67% | |
| 27日 | 40 (1) | 257 (-1) | 0 | 0 (-1) | 1 | 0 | 2 (1) | 242 / 300 | 80.67% | 朝日中盤情勢調査 |
| 28日 | 41 (1) | 256 (-1) | 0 | 0 | 1 | 0 | 2 | 243 / 300 | 81.00% | |
| 29日 | 40 (-1) | 257 (1) | 0 | 1 (1) | 1 | 0 | 1 (-1) | 241 / 300 | 80.33% | |
| 30日 | 40 | 257 | 0 | 1 | 1 | 0 | 1 | 241 / 300 | 80.33% | 最終予想 |
予想と開票結果を各政党別に見てみます。予想の的中率をカバー率と精度で考えます。カバー率は、実際の当選者をどれだけ当てられたか(的中/当選者)、精度は、予想した候補がどれだけ当選したか(的中/予想)です。
表3.政党別の予想結果
| 党派 | 当選 | 予想 | 的中 | カバー率 | 精度 |
|---|---|---|---|---|---|
| 自民 | 64 | 40 | 25 | 39.1% | 62.5% |
| 民主 | 221 | 257 | 215 | 97.3% | 83.7% |
| 社民 | 3 | 0 | 0 | 0.0% | 0.0% |
| 公明 | 0 | 1 | 0 | 0.0% | 0.0% |
| 共産 | 0 | 1 | 0 | 0.0% | 0.0% |
| 国民新 | 3 | 0 | 0 | 0.0% | 0.0% |
| 諸・無 | 9 | 1 | 1 | 11.1% | 100.0% |
| 合計 | 300 | 300 | 241 | 80.3% | 80.3% |
各党別に結果を見てみると、民主党が大躍進した結果を口コミから予想できています。ただ、実際の結果よりも優勢という予想になっていました。その結果、自民党については40選挙区の予想に対し、25議席を当てるにとどまりました。
民主党は、予想した候補も83.7%が当選し、当選候補の97.3%をカバーしています。 自民党は、予想した候補の62.5%が当選していますが、予想数が少なかったので当選者のカバー率は39.1%でした。
自民党、民主党以外の政党に関しては、3人を予想しましたが、当選を当てられたのは栃木3区の渡辺氏だけでした。
予想の結果を結果的に当選候補が優勢だった選挙区と激戦だった選挙区を次点候補の惜敗率(当選候補の得票に対して、どのくらい得票を得たか)を元に分けてみました。
表4.当選候補が優勢な選挙区での予想(惜敗率80%以下)
| 党派 | 当選 | 予想 | 的中 | カバー率 | 精度 |
|---|---|---|---|---|---|
| 自民党 | 29 | 30 | 20 | 69.0% | 66.7% |
| 民主党 | 159 | 166 | 155 | 97.5% | 93.4% |
| その他 | 10 | 2 | 1 | 10.0% | 0.0% |
| 総計 | 198 | 198 | 176 | 88.9% | 88.9% |
表5.当選候補がやや優勢な選挙区での予想(惜敗率80%より大きく90%以下)
| 党派 | 当選 | 予想 | 的中 | カバー率 | 精度 |
|---|---|---|---|---|---|
| 自民党 | 14 | 6 | 3 | 21.4% | 50.0% |
| 民主党 | 38 | 48 | 36 | 94.7% | 75.0% |
| その他 | 2 | 0 | 0 | 0% | 0% |
| 総計 | 54 | 54 | 39 | 72.2% | 72.2% |
表6.激戦区での予想(惜敗率90%より大きい)
| 党派 | 当選 | 予想 | 的中 | カバー率 | 精度 |
|---|---|---|---|---|---|
| 自民党 | 21 | 4 | 2 | 9.5% | 50.0% |
| 民主党 | 24 | 43 | 27 | 100% | 55.8% |
| その他 | 3 | 1 | 0 | 0% | 0% |
| 総計 | 48 | 48 | 26 | 54.2% | 54.2% |
選挙区が激戦になるにつれて、予想の精度が落ちている様子が見て取れます。自民党の候補も優勢だった選挙区では予想は比較的当たっていますが、激戦区では予想はほとんど民主党だったにもかかわらず、それをひっくり返した選挙区が多かったことが分かります。
前日の口コミの結果を翌日に反映させる口コミ予想でもこの巻き返しは予想することが難しかったと考えられます。
口コミ予想の予想結果は18日に最初に公開した時は、あまりの民主党優勢の結果に対して、「やっぱりネットのデータは極端になるね」というような声を頂きましたが、22日に朝日新聞社から序盤情勢調査が発表されると、その結果が口コミ予想を裏付ける形になり、注目度が高まりました。
結果的に、どうだったか見てみます。 口コミ予想(最終)と朝日新聞社、日経新聞者の調査結果を比較します。
表7.3社の予想・調査結果比較
| 実施主体 | 予想 | 的中 | 失敗 | 混戦 | 的中率 |
|---|---|---|---|---|---|
| クチコミ@総選挙 | 300 | 241 | 39 | 0 | 80.33% |
| 朝日新聞社 | 260 | 246 | 15 | 40 | 94.62% |
| 日経新聞社 | 288 | 264 | 24 | 12 | 91.67% |
朝日新聞社の的中率が94.62%で高く、日経新聞社も91.67%と9割を超えています。 また、日経新聞社は、当選予測をはっきり出せない混戦判定が朝日新聞社のそれより少なく、的中数で260選挙区を超えています。
条件をほぼ同じにしてみて比較してみました。朝日新聞社、日経新聞社のどちらかが混戦とした選挙区を除く254選挙区の当選的中と予想失敗を見てみます。
表8.対象選挙区を合わせた3社の予想・調査結果比較
| 実施主体 | 予想 | 的中 | 失敗 | 的中率 |
|---|---|---|---|---|
| クチコミ@総選挙 | 254 | 223 | 31 | 87.80% |
| 朝日新聞社 | 254 | 241 | 13 | 94.88% |
| 日経新聞社 | 254 | 239 | 15 | 94.09% |
朝日新聞社が優勢ですが、日経新聞社がほぼ同じ的中率になります。口コミ予想もここでは87.80%と全体よりも的中率が高くなっています。
こうしてみると、新聞社の情勢調査の精度の高さに改めて驚かされます。また、候補者同士が拮抗している選挙区に対して、より積極的に判断するか、判断を保留にするかの方針をめぐる違いも見て取れました。
東京大学工学部システム創成学科 末並 晃氏
今回の衆議院選挙の予測は、インターネット上でのクチコミ数を集計し、それをもとにした予測モデルに基づいておこないました。
候補者個人に関するクチコミと所属政党に関するクチコミを集め、それぞれがどの程度得票率に影響を与えるかを過去の国政選挙をもとに分析し、予測モデルを構築して算出した値が予想得票率です。 今回の衆議院選挙は「政権選択」を争点とし、非常に国民の話題を集めました。クチコミの数も非常に多く、インターネット上の情報がリアルな現象をあらわすということを実証する好例であったと考えています。
予測と結果を比較してみると、予測が外れている選挙区も少なくなく、今後の予測精度向上の必要性を示唆する結果となりました。 しかし、実質的には戦後初といえる政権交代、それも歴史的な民主党の圧勝と自民党の大敗を公示日の時点で予測できたことは、この手法が大きな可能性を秘めたものであるということを証明しているといえます。今回は、初めて候補者を擁立した幸福実現党という新政党もありましたし、国旗騒動やポスター騒動などもあり、直接選挙結果に影響を与えない話題も数多く報道されました。それらがインターネット上のクチコミに影響を与えたのも事実で、今後の分析制度の向上は必須であると考えていますが、それでも8割を越える精度で予測を的中させることができたということはよい結果だったと考えています。
今回は選挙を取り扱いましたが、クチコミを利用した予測はより多様な分野で可能なものです。 商品のマーケティングや企業のブランディングに生かすことはもちろん可能ですし、世の中の現象の多くは今回のようにクチコミによって予測できるものであると考えられます。インターネットが一部のユーザにとってのものでなく、ひとつの巨大なメディアとして無視できないようになった昨今、クチコミを利用した予測手法やそれらが社会に与える影響について考え直すきっかけとして、クチコミ@総選挙はいい試みだったのではないでしょうか?
予測モデルの精度を上げるには、その基となる過去のデータ(口コミ数と得票数が分かっているデータ)が必要ですが、国政選挙のスパンと比較して、ブログが一般化してから未だ日が浅く、参考とできるデータは前回の衆議院総選挙と参議院選挙くらいで、決して多くはありませんでした。 結果的に、新党の誕生など前回に見られなかった動きが予想に影響を与えました。 これらについては、今回の総選挙のデータや今後事例を重ねることで解消していくことができます。
また、今回のモデルでは考慮しませんでしたが、一般に考えられることとして以下の項目が挙げられます。
- 政党間の選挙協力
- 口コミの中身をより深く考慮したテキスト解析
- 候補者の羅列のみの書き込みなどの排除のような選挙の口コミに特化したスパム排除
末並氏のコメントにもあるように、今回の技術は応用範囲が広いことが特徴です。具体的には、ある程度口コミ数があり、予測したい指標の過去のデータがあれば予測モデルを作ることが出来ます。
予測の精度に関しては、本質的にネットの口コミと相関があるか、ノイズをどこまで除去できるか、対象固有の調整をどこまでやるか等、予測対象に応じた研究が必要になりますが、非常に将来性のある分野だと考えています。
ホットリンクでは産学連携によるこうした研究活動を積極的に進めております。ネットの口コミデータを活用したいテーマがある、研究のデータとして利用したい等の考えをお持ちの企業や研究機関様からのご連絡をお待ちしております。







