第二弾 その平均値、危険ですよ! ~直感に反する平均値~

データ分析

はじめに

本記事は、先日投稿した その平均値、危険ですよ! の続編です。
平均値にまつわるある不思議な話を紹介しようと思います。

サンプルデータ

去年、私の地元である北九州市が人口10万人以上の都市が対象の全4部門のうち「総合」と「シニア世代」の2部門で全国1位となったそうです。(「2018 年版『住みたい田舎』ベストランキング」で北九州市が総合部門・シニア世代部門の2部門で全国第1位を獲得しました!)
これは、偏に北九州市のヒーロー、キタキュウマンの努力の賜物かもしれません。

てなわけで、今回は飯テロ好きなキタキュウマンにあやかって、東京と福岡の食に関する満足度(1~5の5段階)に関するアンケート結果(架空)を取り扱うことにしました。結果は以下になります。

男性(人数) 女性(人数)
東京都在住 3.4点(20人) 4.0点(80人)
福岡県在住 3.7点(80人) 4.3点(20人)

直感に反する平均値

サンプルデータからは以下のことがわかります。

  • 東京都在住の男性(3.4点)よりも福岡県在住の男性(3.7点)のほうが食に対する満足度が高い
  • 東京都在住の女性(4.0点)よりも福岡県在住の女性(4.3点)のほうが食に対する満足度が高い

それでは、福岡県在住の人は食に対する満足度が高いと言えるでしょうか?

実は言えるかどうかはわからないんです。
実際にどこに在住しているのかで平均値を出してみます。

東京都 (3.4×20+4.0×80)÷100 = 3.88
福岡県 (3.7×80+4.3×20)÷100 = 3.83

実際に平均点を出してみると、福岡県在住の人よりも東京都在住の人のほうが食に対する満足度が高いことがわかります。

こんなことがあると、自分の直感が信じられなくなってしまいます。

この例の場合、直感と異なりますが、異ならない場合もあります。
例えば、以下のような場合です。

男性(人数) 女性(人数)
東京都在住 3.5点(20人) 4.0点(80人)
福岡県在住 3.9点(80人) 4.2点(20人)

どこに在住しているのかで平均値を出してみます。
東京都 (3.5×20+4.0×80)/100 = 3.9
福岡県 (3.9×80+4.2×20)/100 = 3.96
今度は福岡県在住の人のほうが平均値が高くなりました。

このように分割してデータを見るのと、全体でデータを見るのとで結果が矛盾しているように感じる現象をシンプソンのパラドックスといいます。

ちなみに、このパラドックス、平均値だけに限定されたことではありません。
たとえば、以下のような事実があった場合を考えます。

  • 30歳以上の男は30歳以上の女よりも音楽好きが多い。
  • 30歳未満の男は30歳未満の女よりも音楽好きが多い。

この2つから、男性は女性よりも音楽が好きの割合が大きいであるとは言えないのです。

終わりに

直感に反しているのは、ちょっと不思議な感覚だったかもしれません。
日本語で「各々のグループの平均が高くなったから全体の平均も上がった」と説明されたら思わず納得しそうになりますね。

データ分析