3-2

■洞察の統計学に必要な3つの知識

現状把握のための単純集計にしか統計学を使ってこなかった人が、

分析による因果関係の洞察に踏み出すにあたり、身に付けるべき知識が

3つある。

 

・平均値や割合などの統計指標の本質的な意味の理解

・「データを点ではなく、幅でとらえる」

・「何の値ごとに集計すべきか」

 

平均値や割合などの統計指標の本質的な意味の理解

・平均値の本質がわかれば割合もわかる

平均値と割合というのは本質的に全く同じである

通常、年齢や年収、購買金額といった数で表される情報

(量的変数)については平均値の形で集計を行う。

一方、性別や職業、商品ジャンルといった数ではなく文字で表される

情報(質的変数)については割合を集計する。

 

例えば100人に対する調査で50人が男性というデータが得られた時

男性の割合は50%という結果が得られる。

ここで、男性である度合いという量的変数で考える。

男性である度合いは男性であるとしたら1それでなければ0という

値になるものとする。

この平均値は0.5になる。これは先程の割合と同じ値である

 

「データを点ではなく、幅でとらえる」

多くの人が行なっている集計では、データの散らばりをその真ん中あたり

にあるだろうと考えられるたった一つの点飲みから理解しようとしている。

このたった1つの点は多くの情報を無視したものである。

平均年齢が20歳と言われても20歳前後の若者ばかりが

集まっている集団なのかはわからない。

そこで、統計学は、おおよそデータはどこからどこまでの範囲に

存在しているかという幅を把握するための方法を生み出した。

これは後の章で述べられます。 

 

「何の値ごとに集計すべきか」

これは統計学を因果関係の洞察に使う上でもっとも重要な枠組みである。

因果関係等はある原因によってどのように結果が変わるかということである。

 

事業に関わる色々な数値を性別ごと年代ごとに見るという集計結果は

多くの人が仕事の中で触れたことがあるものと思われる。

しかし、そもそも何の項目ごとに何の項目を集計して見るべきなのかを

考えたある人はどのぐらいいるだろうか。

仮にデータが100個あれば比較する項目は9900個あることになる。

全てを見るのは現実的ではないから、多くの人は経験と勘に基づいて

仮設を立てる。例えば、「広告認知のある顧客ほど良いブランドイメージを持っているか」という仮設に対応する集計表をみているのかもしれない。

だが、せっかく経験と勘に反する新しい発見に出会うためにデータ分析という作業を

しているのに自分の経験や勘の検証しか行わないのでは勿体無い。

 

では、どうするべきか。

データ分析を因果関係の洞察、すなわち、最終的にコントールしたい結果とそれに影響を与えうる原因の候補、という観点で捉えるのである。

この最終的にコントロールしたい結果のことをアウトカムと呼ぶ。

そしてそのアウトカムの違いに影響するかもしれない、あるいはその違いを説明

できるかもしれない要因のことを説明変数と呼ぶ。

 

データ分析を価値に繋げようとすればまず自分のデータから表現できるもののうち

「最大化したり最小化したりすべきゴールのなる項目」

が何なのかを考えなければならない。これがアウトカムである。

例えば、マーケティングであれば売り上げや顧客数を考える。

逆に広告の認知率やSNS嬢の口コミ件数はアウトカムではなくアウトプットだと

考えられるかもしれない。それら自体は目指すべきゴールではなく

あくまで途中経過であり利益と関係ないと行った状況もあり得る。

 

アウトカムが決まれば、それを左右する説明変数が重要になる。

例えば、性別で売り上げを比較したところ女性の平均売り上げが

明らかに高かったということがわかれば女性が来店しやすい店舗設計を

心がけたり、女性のよく見るメディアに広告を出稿することで、

そうした施策のコストを大きく上回る売り上げ増を見込めるかもしれない。

 

分析すべきデータが100個あったとして、そのうちどれが

最大化したり最小化したりすべきアウトカムなのかが決まっていれば

9900個の集計表をみなければならないということにはならない。

最大でも、アウトカム以外の99項目ごとにアウトカムの大小を比べる

99個の集計表を見ればそこにこれまでに考えたこともない発見がある

可能性はある。それでも多いと思う場合は以下のような視点で説明変数の優先つけ

をするといい。

 

・その因果関係が当たり前すぎるものではないこと

・アウトカムへの影響が明らかになったとしてその原因のコントロールが容易であること

・今までにあまり注目して分析されたことがないこと

 

つまり、顧客が増えると売り上げが上がるとか、

顧客一人当たりの売り上げが増えると全体の売り上げが上がると行った

そりゃそうだという思うものはわざわざ分析する必要はない。

コントロールが容易であることについて、例えば夏になればビールが売れるからと行って季節を夏に変えることはできない。

今まで分析されたことがことないについて、もっともらしい仮説を考えるとは

逆のアプローチである。因果関係が当たり前でなくともコントロール可能であれば

分析すれば新しい発見に出会えるかもしれない。