absolute-value

伸び率や水準と変化のすり替えに気をつけろ 絶対値によるリスク表示

前回は、統計の目的は数量的要約と未来予測 統計・確率思考入門についてまとめた。ここでは、伸び率や水準と変化のすり替えに気をつけろ 絶対値によるリスク表示について解説する。

5 シミュレーションとは

シミュレーションがわからないマスコミ

シミュレーションとは、実際には起こっていないことを周辺のデータから具体的に予測するものである。前回から繰り返しいうように、実測値とは異なる。しかし、2011年4月4日の読売新聞の記事において、あたかもシミュレーションが現実であるかのように誤解させるような内容が報道された。こうした事実から、報道する側もデータの見方がわからないことが明らかである。

 

郵政民営化のシミュレーション

シミュレーションは、一定の前提を立てた上で将来や結果を予測するのだから、前提が違えば結果が違うのは当たり前である。例えば、郵政民営化のシミュレーションでも前提は1万通り以上あった。その結果、官業がやがて行き詰まることを導き出したのである。

 

6 分布の形

正規分布

統計データの分布の形で最も有名なのが正規分布である。正規分布とは、平均値の付近に集積するようなデータの分布を表したものである。例えば、こうした正規分布が現れやすいのは高校生のクラス単位の身長の分布である。

 

平均値と中央値

平均値とは、単純にすべてのデータを足してデータの個数(人数など)で割った値である。中央値(メディアン)とは、データを小さい順に並べたときに、ちょうど真ん中に出てくる値のことである。正規分布の場合は、この中央値と平均値は一致する。さらに、最頻値とは最も多く出現する値のことで、これらの3つのことをまとめて代表値(集団の特徴や傾向を示す客観的な尺度となる数値)という。例えば、所得の分布は平均値で見ると547万円だが、中央値で見ると427万円である。

 

7 第一種過誤と第二種過誤

真実を見過ごす誤り、誤りを見過ごす誤り

推測統計における間違いには以下の2種類がある。

  1. 第一種過誤(ERROR TYPE Ⅰ):実際は正しいのに、誤って正しくないと判断して捨ててしまうもの
  2. 第二種過誤(ERROR TYPE Ⅱ):実際には正しくないのに、誤って正しいと判断してしまうもの

例えば、原発事故後の野菜の出荷制限のことに置き換えると、前者は安全性に問題がないにもかかわらず出荷停止されてしまうケースである。 後者は安全性に問題があるにもかかわらず出荷許可されてしまうケースである。風評被害の問題はこの2つの過誤で説明ができ、第二種過誤を防ぐために安全をとって第一種過誤が増えてしまうというものである。

こうした問題は客観確率だけでは解決が難しいため、主観確率としてのベイズ確率が用いられる。

 

8 リスクとは

「可能性はゼロではない」は危険を意味するか

リスク(損害の発生確率×損害の重大さ)とは確率表現であり、0と1の間の数になる。「可能性はゼロではない」というのは「絶対に安心ではない」という意味であり、決して100%確実というわけではない。

 

絶対リスク表示と相対リスク表示

記述統計におけるリスク表示には、絶対リスク表示と相対リスク表示の2つがある。絶対リスク表示は実数に基づいたもので、相対リスク表示は割合に基づいたものである。例えば、100万人のうちの数十人という指標は絶対リスクであり、「何倍」という指標は相対リスクである。相対リスク表示のほうが大きな数字になりやすいため、製薬会社などでよく使われている。

 

9 そもそもの数字の理解

ストックかフローか

ストックはある時点の状態を表す数字であり、フローはある期間の数字の動きを表すものである。例えば、日銀の保有国債のうち、2011年度中に償還(返済)される分が30兆円ある。そのうち12兆円は日銀引き受けを実施することになっている。これは日銀の保有国債が年度末には18兆円減少する(フロー)ということで、日銀のバランスシートから18兆円のお金がなくなる(ストック)ということである。

 

放射線量もストックが重要

常に変化するフローの数字と、積み重ねとしてのストックの数字の両方が重要である。これは放射線量にもあてはまり、微量の放射線で問題になるのは累積値である。

 

数字のトリック①伸び率

数字のトリックとしてよく使われるものに伸び率がある。伸び率はどこと比較するかが問題である。例えば、「前半に50%減少したが、後半に60%増加した」というのは100%が50%になり、50%が80%になるだけなので、元には戻っていない。

こうしたトリックは多く使われていて、例えば増税する際の「景気が良くなったら」の基準は「ボトム(一番低い状態)から少しでも上がったら」ととらえられていた。

 

数字のトリック②「水準」と「変化」のすり替え

また、「水準」と「変化」のすり替えもよく行われる。変化していないことを水準を理由にごまかすのである。水準(ストック)と変化(フロー)を混同して説明するともいえる。例えば、2011年当時の日銀は金融緩和において、マネタリーベースの対GDP比で日本が欧米よりも高いと説明した。しかし、金融緩和しているかどうかは「水準」ではなくその「変化」が重要であり、変化していない日銀は金融緩和していなかったのである。

 

10 ベイズ統計

ベイズの定理

ベイズの定理とは以下に示す1つの式だけである。

P(B|A)=P(A|B) P(B)/P(A)

  • P(A):事象Aが起こる確率
  • P(B):事象Bが起こる確率
  • P(B|A):事象Aが起きたときに事象Bが起こる条件付き確率
  • P(A|B):事象Bが起きたときに事象Aが起こる条件付き確率

この2つの条件付き確率をうまく使って、現在進行形の問題を解決していくのがベイズ確率の特徴である。

 

スパムメールをはじく仕組み

ベイズ確率はスパムメールをはじく仕組みで使われている。その理由は、誤って通常のメールをはじくことなく、スパムメールだけを高い精度ではじくことが求められるからである。

例えば、主観確率におけるスパムメールが60%、通常のメールが40%だと仮定する。スパムメールに特定のワードが含まれる確率が80%、通常のメールに特定のワードが含まれる確率が1%とする。これらをベイズの定理に代入して計算すると、99.17%の確率でスパムメールをはじくことができる。

 

検査法T

旭川医科大学の試験問題にベイズ確率の典型例が出ていた。以下の4つの条件が提示され、検査法Tを適用したときに本当に病気にかかっている確率を求める問題である。「病気にかかっている人」に検査法Tを適用すると98%の確率で病気と診断、「病気にかかっていない人」に適用すると5%の確率で病気と診断、病気にかかっている人の割合は3%、かかっていない人の割合は97%である。これらをベイズの定理に代入すると、38%になる。

 

実数に置き換えるとわかりやすくなる

こうした問題が出たときには、実数に置き換えるとわかりやすくなる。検査法を適用した人の総数を10000人とする。すると、病気にかかっていない人は97%なので、その実数は9700人になる。病気にかかっている人は3%なので、実数では300人になる。

病気でないのに病気と診断される人は、9700人のうちの5%なので485人。一方、病気にかかっている300人のうち、98%が実際に病気と診断されたのだから、その数は294人。よって、病気と診断された人の合計は、485+294=779人。このうち本当に病気にかかっているのは294人なので、294/779=38%となる。

 

乳がんの検診

この入試問題に似た話が現実にあり、それが大きな問題を引き起こすことがある。それは乳がんのマンモグラフィー検査である。

リスク・リテラシーが身につく統計的思考法―初歩からベイズ推定まで』(ハヤカワ文庫)でも紹介されているが、本当にがんである人の割合は3%なのにもかかわらず、誤ってがんの判定を受ける確率が9%あることで、無用な心配をして生活をしている人がいるのである。

著書では、50歳以上の検診では乳がんの死亡率を低下させているのは明らかとしているが、40代の女性についてはその効果ははっきりしない、としている。

 

モンティ・ホール問題

ベイズ統計において必ず紹介されるのが、モンティ・ホール問題である。これはアメリカのテレビ番組で実際にあった話で、モンティ・ホールとはこの番組の司会者の名前である。この番組では、次のようなゲームが行われていた。

  • A、B、Cの3つのドアがある
  • そのうちの1つに必ず商品が隠されている。そのドアを当てれば商品がもらえる
  • 回答者が最初にA〜Cのうち1つを選んだ段階で、答えを知っている司会者がハズレを1つ選んで除外する
  • その後、回答者は最初に自分が選んだドアを含む残り2つから、もう一度選び直すことができる
  • 初志貫徹で最初に選んだドアのままにするか、もう1つのドアに変えるか

当時の視聴者のほとんどはどちらを選んでも同じとしていたが、1990年にマリリン・ヴォス・サヴァントが選ぶドアを変えたほうが当たる確率が2倍になると回答し、物議をかもした。

 

なぜドアを変えたほうが当たる確率は高くなるのか

なぜドアを変えたほうが当たる確率が高くなるのかは、順に考えれば明らかである。まず回答者がAを選ぶ。Aが当たる確率は3分の1なので、残りのBとCは合わせて3分の2の確率になる。その後司会者がCのハズレを選んだとすると、Bの当たる確率が3分の2になるのである。

このように、確率は事後の情報によって変わっていく。これが、ベイズ統計が実用に使える肝であり、ベイズ更新(Bayesian Updating)という。

 

原発の信頼性をベイズ更新で考える

原発の信頼性に対する主観確率は以下の4つに分けられる。安全だと考えているとき、原発が無事故の主観確率は99.9%、事故を起こすという主観確率は0.1%である。反対に危険だと考えているとき、それぞれ50%ずつである。これをもとにベイズの公式を使って計算すると、一度でも事故が起こると大きく下がってしまう。このように、事故や失敗が続くと、信頼を取り戻すのは大変なのである。

 

最後に

どこと比較するかという伸び率、水準を理由に変化していないことをごまかす論理のすり替えなど、数字のトリックには注意が必要。シミュレーションとしての推測統計、実数による絶対リスク表示、ベイズ統計のスパムメールの予防など、確率は非常に生活に役立っている。直感も大切、ベイズ更新の理性も大切

次回は、虜理論と天下り バランスシート思考で考える東電問題についてまとめる。

統計・確率思考で世の中のカラクリが分かる (光文社新書)


コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>