3-3
■洞察には中央値よりも平均値を
現状把握のための統計学では、平均値だけで物事を判断してはいけない
ということがよく言われる。
データの中心を判断数ための代表値として平均値を使うことは
ミスリーディングだとされる。
会社の平均年収が500万円の場合、その会社に入れば500万くらいは
給料をもらえるのではないかと考えるが
例えば9人いる中で8人が300万で一人が2100万の場合
平均は500万になる。
この場合この会社に入っても500万はもらえなさそうである。
このミスリーディングを避けるために現状把握の統計学では
平均値の代わりに中央値や最頻値を併せて使うといい。
しかしながら洞察のための統計学では中央値や最頻値を気にするという
ことはあまりない。
平均値とはデータの値を全部足してその件数を割ったものという理解は
あくまで計算の手順を示した浅い理解に過ぎない。
平均値とは最小二乗法に基づき、観測値に含まれるズレを最も小さくすると
考えられる良い推定値である。
ある研究で異なる国と異なる年数において受験者数を
教育状態ごとに集計すると、
驚くべきことに条件が違うにもかかわらず
読み書きのできない者が全受刑者数に占める割合はほぼ等しいことが
わかった。
それまで、犯罪とは単に個人の意思や徳の問題だと考えられていたが
いざ集計して平均や割合を計算してみると満足な教育を
受けたかどうかという影響がみて取れる。
意思や多様性を含んだ個々の人の状態というのは、その背後に
様々な要因によって左右される人間の傾向性が存在している
その傾向性について真の値を得るためには平均値を使うのが
良いと考えられている。