「前半に50%減少し、後半に60%増加した」こう聞くとなんとなく元に戻ったような気がする。しかし、100%が50%になり、50%が80%になったのだから、実際は減っている。ここでは、高橋洋一『統計・確率思考で世の中のカラクリが分かる』を5回にわたって要約し、数字に対する理解を深める。
1 統計とは
統計の目的
統計の目的は以下の2つである。
- 人々の経験を要約して数量化し、その本質を理解できるようにすること
- 要約された事実に基づいて、将来の状況の結果を推計・予測すること
1.の例は、平均寿命、合計特殊出生率、有効求人倍率、偏差値、GDP(国内総生産)などがある。2.の例は、天気予報、テレビの視聴率、帰省ラッシュのピーク予想、渋滞予測などがある。著者の専門のコスト・ベネフィット(B/C)分析も推計の1つである。
推計の2つの方法
統計の出し方、すなわち確率の算出の仕方には2つの方法がある。1つは事象が起こる頻度に依存するもの(客観確率)、もう1つは主観的な確率に依存するもの(主観確率)である。
事象が起こる頻度に依存する客観確率(数学的確率、頻度主義)
客観確率とは事象が起こる頻度に依存するもので、数学的確率や頻度主義のことである。数学的確率とは、他の影響を一切受けない理想的な環境という条件で求められる確率である。数学的確率を現実に応用したものを頻度主義という。頻度主義とは、統計データから確率を求める方法で、特定の事象(例えばサイコロで6の目が出る)が起こる頻度(物事が繰り返し起こる度合い)を調べ、そこからその事象が起こる確率を求めるものである。
客観確率から得られるものには限界があり、「過去のある時期のある環境下」での事象から導き出された確率にすぎない。
頻度主義の限界
頻度主義のこの弱点をさらしたのが、福島第一原発事故に対する電力会社からの「想定外」という発言である。電力会社および日本の規制当局は、日本における過去数十年のデータから深刻な事故が発生する確率を極めて低いとして、その対策を行ってこなかったのである。つまり、頻度主義では、100年に一度しか起きないとされていた事故や災害が、101年目に起こる可能性を排除することはできない。
主観確率(ベイズ確率)
主観確率とは、人間の心理の中にあるものを確率としてとらえる考え方である。例えば、「特定の事象が起こる確率は○○%だと思う」といったものである。こうした主観確率を採用する考え方をベイズ確率といい、その立場を取る人のことをベイジアンという。これはこの証明を最初に行ったイギリスの数学者トーマス・ベイズ(1702〜1761)にちなんでいる。
主観確率にも限界はあり、曖昧な人間の「思い込み」を確率とするため、いいかげんともいえる。
人はなぜ宝くじを買うのか
宝くじの期待値(掛金に対して戻ってくる「見込み」の金額)は40%程度である。公表されている払い戻し率も45%程度であり、自治体の収益が41%、経費が14%である。つまり、無限に買い続けても得られる賞金は買った金額の半分にも満たないのである。
しかし、人は宝くじを買う。これは「自分が買った宝くじは当選する確率が限りなく1に近いと思える」という主観確率によって説明できる。
2 確率とは
コルモゴロフの公理
コルモゴロフの公理とは、以下の3つの公理を満たせばそれはすべて確率と考えていいというものである。コルモゴロフとは、20世紀の始めにロシアで生まれ、主にソビエト時代に活躍した数学者である。
- 確率とは0と1の間をとる関数
- すべての事象を集めれば確率は必ず1になる。Ω(オメガ)はすべての事象のこと
- 排反事象(Aが起きるときにはBは起きないという関係)の場合、その確率は個々の確率の足し算になる
なお、数学の場合、公理と定義と定理を勉強すればよい。公理と定義を知っていれば、定理は証明できる。
主観確率にも当てはまるコルモゴロフの公理
コルモゴロフの公理は主観確率にも当てはまる。主観確率も0から1の間にあり、すべての確率の和は1になり、互いに排他的な事象は足し算になる。例えば、仕事が成功する確率を90%と考え、失敗する確率を10%と考えるならば、その和は100%である。
このように、数学の本質は複数の世界観を持てることである。
一年以内に東海地震が単独で起こる確率
30年以内に87%の確率で、マグニチュード8.0規模の東海地震が単独で起こるという参考値が、政府の地震調査研究推進本部によって公表された。このデータをもとに、2011年5月14日、中部電力浜岡原子力発電所が運転を停止した。
しかし、竹中平蔵氏がTwitterでつぶやいたように、「あえて単純計算すると、この1年で起こる確率は2.9%、この1ヶ月の確率は0.2%だ。原発停止の様々な社会経済的コストを試算するために1ヶ月かけても、その間に地震が起こる確率は極めて低いはずだ」という指摘はもっともであり、0か1かで判断すると多大なコストがかかってしまう。
3 記述統計と推測統計
なぜ推測統計が必要なのか
統計の2つの目的を専門用語に置き換えると、記述統計(要約)と推測統計(推計・予測)になる。記述統計とは、収集したデータの要約統計量(平均や分散など)を計算して分布を明らかにすることなどによって、そのデータの傾向や性質を求めるものである。
推測統計とは、調査した値を推計や予測のための基礎として用いることで、実際には調べていないものや調べられないものを推計・予測するものである。この実際には調べられないものを推計・予測できることが推測統計のメリットである。
テレビの視聴率、選挙の出口調査 – 母集団と標本(サンプル)
推測統計で行われる調査として、テレビの視聴率や選挙の出口調査があげられる。対象者全員に調査を行うと非常にコストがかかってしまうため、全体の傾向に近い標本(sample)を抽出することで調査している。一方、調査対象となるすべての集合体を母集団(population)という。推測統計と記述統計の違いは、標本と母集団ともいえる。
統計にはバイアスがかかる – 標本抽出、設問の仕方の問題
標本抽出や設問の仕方によって、統計にはバイアスがかかる。例えば、新聞やテレビなどの世論調査は、最近は電話によるRDD方式(乱数番号法:Random Digit Dialing)が主流だが、この方式は固定電話が対象で携帯電話やIP電話は含まれない。また、あるセミナー会場で「○○は賛成の人は挙手してください」と質問をすると、挙手するのが面倒だとか日本人の国民性から賛成する人が少なくなる可能性が高い。
モニタリング調査という記述統計
モニタリング調査という記述統計もある。例えば、文科省が出している福島第一原発周辺での放射性物質のモニタリング結果などである。
SPEEDIという推測統計 – シミュレーション
SPEEDI(System for Prediction of Environmental Emergency Dose Information:緊急時迅速放射能影響予測ネットワークシステム)は、緊急事態において気象条件や地形情報などから放射性物質の環境への拡散を地理的、数値的に予測するシステムである。福島第一原発事故の直後、情報公開がされず、累計100億円以上もかけた意味がなかったと批判されたものである。有効に活用すれば、推測統計としてのシミュレーションデータの1つとして利用できる。
統計やデータが理解できない人々
SPEEDIはそれほど難しいシステムではない。オフサイトセンター(原子力災害発生時に、避難住民等に対する支援など様々な応急対策の実施に関係する国や地方自治体、放射線医学総合研究所、日本原子力研究開発機構や専門家などが一堂に会して情報を共有し、指揮の調整を図る拠点施設)や日本気象協会などが、原子力安全技術センターに設置されたコンピュータを中心にネットワークで結ばれ、気象観測データやモニタリングポスト(環境の放射線量率を自動観測する設備)からの放射線データ、そして日本気象協会からのデータ、アメダスデータを常時収集して緊急時に備えている。特に、放射性物質の飛散が想定される場合には、風向きと地形が重要になる。
しかし、こうした情報に対し政府内では「正確か、正確じゃないか」という議論に終始し、官僚も「予測値にすぎない」として使わなかった。そもそもシミュレーションは現実に実測値が得られないような場合に、既存の統計データをもとに推測値を導き出し、どのような事態が起こるかを求めるものである。危機予測としての役割を果たさなければ、それは税金のムダにすぎない。
4 標本と母集団
標本(サンプル)は母集団を代表
正確な標本を抽出するには、母集団を代表するものでなければならない。例えば、1936年のアメリカ大統領選での事前予想では、ある雑誌は230万人を対象にした調査で共和党のランドン候補の勝利を予想したが、民間調査期間ギャラップはそれよりもはるかに少ない人数の調査から、的確に民主党のルーズベルトの勝利を予想した。これは、前者の調査に標本の抽出に偏りがあったことを証明している。
震災復興の財源で増税 – バイアスのかけ方
「震災復興の財源に充てるために」増税することは賛成ですか?こう聞かれて「反対」するのはかなり勇気がいるだろう。本来「財源が必要」となれば、増税だけでなく国債発行や埋蔵金の活用といった3つの選択肢があるが、その手段として増税だけが提示されればそれを選ぶしかない。
国債というと「日本は借金大国。子孫に負債を残すな。国際の信用が落ちる」という誤った論理が刷り込まれているし、埋蔵金にいたっては話題にすらされていない。こうした環境のもとでサンプリングされれば、「賛成」と答える人が多くなるのはしかたがないだろう。
ネットメディアのアンケート調査
「ダイヤモンド・オンライン」 というネットマガジンの記事の後に、読者が意見を投票する場がある。例えば、大災害の復興予算を組む場合には国債発行がセオリーだ、とする意見に賛成か反対かを聞くものがあった。結果は、国債発行ではなく増税で対応するという意見に比べ、ネットでは国債発行に軍配が上がった。ただし、これもあくまでネット環境というバイアスがかかった数字なのである。
最後に
そもそもシミュレーション(推測統計)は実測値がわからない場合にこそ役立つのであり、その統計・確率思考の使い方が理解できなければ意味がない。SPEEDIを活用できなかった政府や官僚も悪いだろう。ただし、彼らは国民の代表にすぎない。統計学が最強の学問である。
次回は、伸び率や水準と変化のすり替えに気をつけろ 絶対値によるリスク表示についてまとめる。
![]() |