3-4

・平均値は真実を捉える理由

 

因果関係の洞察という観点で平均値の方が中央値より関心のあることに

対する直接的な答えとなっていることが多い。

多くの場合何らかの結果を示す結果を示す値の総量を最大化したい

ということに向けられるが

それに対して中央値はその答えを与えない。

 

例えば、駄菓子屋で2100円の買い物をする人一人と

300円の買い物をする人が8人いるとして

何とか売り上げを上げれないかということで

1000円ごとに引けるくじを用意したところ

300円の人は購入金額は変わらなかったが

2100円の人は3000円の売り上げになった。

この場合中央値は300円と変わらないが

売り上げとしては900円増加しており、

平均値600円で100円上昇している。

 

要するにデータの現象把握として適切だろうとなかろうと

一部の極端な人間のみに集中していようと

全体として売り上げがいくら変わるのかという総量の

増減を示すには平均値の方が適しているということである。

 

また、そうした実用上の問題だけでなく、なぜ平均値をバラつきのあるデータ

の背後にある真の値と考えると良いのか。

データのバラつき方が正規分布に従っているのであれば

最小二乗法が最も良い推定方法であり、

その結果、平均値が最も良い推定値となる。

3-4

・平均値は真実を捉える理由

 

因果関係の洞察という観点で平均値の方が中央値より関心のあることに

対する直接的な答えとなっていることが多い。

多くの場合何らかの結果を示す結果を示す値の総量を最大化したい

ということに向けられるが

それに対して中央値はその答えを与えない。

 

例えば、駄菓子屋で2100円の買い物をする人一人と

300円の買い物をする人が8人いるとして

何とか売り上げを上げれないかということで

1000円ごとに引けるくじを用意したところ

300円の人は購入金額は変わらなかったが

2100円の人は3000円の売り上げになった。

この場合中央値は300円と変わらないが

売り上げとしては900円増加しており、

平均値600円で100円上昇している。

 

要するにデータの現象把握として適切だろうとなかろうと

一部の極端な人間のみに集中していようと

全体として売り上げがいくら変わるのかという総量の

増減を示すには平均値の方が適しているということである。

 

また、そうした実用上の問題だけでなく、なぜ平均値をバラつきのあるデータ

の背後にある真の値と考えると良いのか。

データのバラつき方が正規分布に従っているのであれば

最小二乗法が最も良い推定方法であり、

その結果、平均値が最も良い推定値となる。

3-3

■洞察には中央値よりも平均値を

現状把握のための統計学では、平均値だけで物事を判断してはいけない

ということがよく言われる。

データの中心を判断数ための代表値として平均値を使うことは

ミスリーディングだとされる。

 

会社の平均年収が500万円の場合、その会社に入れば500万くらいは

給料をもらえるのではないかと考えるが

例えば9人いる中で8人が300万で一人が2100万の場合

平均は500万になる。

この場合この会社に入っても500万はもらえなさそうである。

 

このミスリーディングを避けるために現状把握の統計学では

平均値の代わりに中央値や最頻値を併せて使うといい。

しかしながら洞察のための統計学では中央値や最頻値を気にするという

ことはあまりない。

 

平均値とはデータの値を全部足してその件数を割ったものという理解は

あくまで計算の手順を示した浅い理解に過ぎない。

平均値とは最小二乗法に基づき、観測値に含まれるズレを最も小さくすると

考えられる良い推定値である。

 

ある研究で異なる国と異なる年数において受験者数を

教育状態ごとに集計すると、

驚くべきことに条件が違うにもかかわらず

読み書きのできない者が全受刑者数に占める割合はほぼ等しいことが

わかった。

それまで、犯罪とは単に個人の意思や徳の問題だと考えられていたが

いざ集計して平均や割合を計算してみると満足な教育を

受けたかどうかという影響がみて取れる。

 

意思や多様性を含んだ個々の人の状態というのは、その背後に

様々な要因によって左右される人間の傾向性が存在している

その傾向性について真の値を得るためには平均値を使うのが

良いと考えられている。

 

 

3-2

■洞察の統計学に必要な3つの知識

現状把握のための単純集計にしか統計学を使ってこなかった人が、

分析による因果関係の洞察に踏み出すにあたり、身に付けるべき知識が

3つある。

 

・平均値や割合などの統計指標の本質的な意味の理解

・「データを点ではなく、幅でとらえる」

・「何の値ごとに集計すべきか」

 

平均値や割合などの統計指標の本質的な意味の理解

・平均値の本質がわかれば割合もわかる

平均値と割合というのは本質的に全く同じである

通常、年齢や年収、購買金額といった数で表される情報

(量的変数)については平均値の形で集計を行う。

一方、性別や職業、商品ジャンルといった数ではなく文字で表される

情報(質的変数)については割合を集計する。

 

例えば100人に対する調査で50人が男性というデータが得られた時

男性の割合は50%という結果が得られる。

ここで、男性である度合いという量的変数で考える。

男性である度合いは男性であるとしたら1それでなければ0という

値になるものとする。

この平均値は0.5になる。これは先程の割合と同じ値である

 

「データを点ではなく、幅でとらえる」

多くの人が行なっている集計では、データの散らばりをその真ん中あたり

にあるだろうと考えられるたった一つの点飲みから理解しようとしている。

このたった1つの点は多くの情報を無視したものである。

平均年齢が20歳と言われても20歳前後の若者ばかりが

集まっている集団なのかはわからない。

そこで、統計学は、おおよそデータはどこからどこまでの範囲に

存在しているかという幅を把握するための方法を生み出した。

これは後の章で述べられます。 

 

「何の値ごとに集計すべきか」

これは統計学を因果関係の洞察に使う上でもっとも重要な枠組みである。

因果関係等はある原因によってどのように結果が変わるかということである。

 

事業に関わる色々な数値を性別ごと年代ごとに見るという集計結果は

多くの人が仕事の中で触れたことがあるものと思われる。

しかし、そもそも何の項目ごとに何の項目を集計して見るべきなのかを

考えたある人はどのぐらいいるだろうか。

仮にデータが100個あれば比較する項目は9900個あることになる。

全てを見るのは現実的ではないから、多くの人は経験と勘に基づいて

仮設を立てる。例えば、「広告認知のある顧客ほど良いブランドイメージを持っているか」という仮設に対応する集計表をみているのかもしれない。

だが、せっかく経験と勘に反する新しい発見に出会うためにデータ分析という作業を

しているのに自分の経験や勘の検証しか行わないのでは勿体無い。

 

では、どうするべきか。

データ分析を因果関係の洞察、すなわち、最終的にコントールしたい結果とそれに影響を与えうる原因の候補、という観点で捉えるのである。

この最終的にコントロールしたい結果のことをアウトカムと呼ぶ。

そしてそのアウトカムの違いに影響するかもしれない、あるいはその違いを説明

できるかもしれない要因のことを説明変数と呼ぶ。

 

データ分析を価値に繋げようとすればまず自分のデータから表現できるもののうち

「最大化したり最小化したりすべきゴールのなる項目」

が何なのかを考えなければならない。これがアウトカムである。

例えば、マーケティングであれば売り上げや顧客数を考える。

逆に広告の認知率やSNS嬢の口コミ件数はアウトカムではなくアウトプットだと

考えられるかもしれない。それら自体は目指すべきゴールではなく

あくまで途中経過であり利益と関係ないと行った状況もあり得る。

 

アウトカムが決まれば、それを左右する説明変数が重要になる。

例えば、性別で売り上げを比較したところ女性の平均売り上げが

明らかに高かったということがわかれば女性が来店しやすい店舗設計を

心がけたり、女性のよく見るメディアに広告を出稿することで、

そうした施策のコストを大きく上回る売り上げ増を見込めるかもしれない。

 

分析すべきデータが100個あったとして、そのうちどれが

最大化したり最小化したりすべきアウトカムなのかが決まっていれば

9900個の集計表をみなければならないということにはならない。

最大でも、アウトカム以外の99項目ごとにアウトカムの大小を比べる

99個の集計表を見ればそこにこれまでに考えたこともない発見がある

可能性はある。それでも多いと思う場合は以下のような視点で説明変数の優先つけ

をするといい。

 

・その因果関係が当たり前すぎるものではないこと

・アウトカムへの影響が明らかになったとしてその原因のコントロールが容易であること

・今までにあまり注目して分析されたことがないこと

 

つまり、顧客が増えると売り上げが上がるとか、

顧客一人当たりの売り上げが増えると全体の売り上げが上がると行った

そりゃそうだという思うものはわざわざ分析する必要はない。

コントロールが容易であることについて、例えば夏になればビールが売れるからと行って季節を夏に変えることはできない。

今まで分析されたことがことないについて、もっともらしい仮説を考えるとは

逆のアプローチである。因果関係が当たり前でなくともコントロール可能であれば

分析すれば新しい発見に出会えるかもしれない。

 

 

三冊目

序章

 

■ビジネスに必要なのは、人間を洞察するための統計学

一人ひとりが多様で、意思決定のメカニズムが複雑で、

こちらからの働きかけで何かを変化させることが難しいのが人間。

 

この本で説明する統計学は全て人間を洞察し、その行動や

あり方を少しだけ改善するためのもの。

 

個人や集団レベルで人間の挙動を洞察し、それ少しだけ

変容するための方法をデータから明らかにすることだけ。

 

■人間の行動の因果関係を洞察する

統計学は目的別に3つに分けられる

人間の行動の因果関係を洞察する

・現状の把握

・今後の予測

 

現状の把握についてはすでにビジネスの現場では

実用上あまり問題にならない程度に使いこなせている

 

今後の予測については、分析手法云々の前に

それ以外の様々な事情から実際に予測を当てるというのはとても難しい。

 

この本では人間の行動の因果関係を洞察することに焦点を当てていく

 

■洞察の統計学はどのように役立つのか

例えば、マーケティング部門などでは予測より洞察の方が重要になる

完成した商品に対して、

この商品がいくつ売れるかという予測よりも、

・どのようなプロモーションをすれば商品が売れるか

・どのような商品を作ればヒットするか

という洞察の方が利益の源泉となる。

すなわち、購買という求める結果の背後にどのような原因が存在するか

という因果関係をさぐりあてることが重要なのである。

 

医学においても同様のことが言える。

医学関係者のほとんどは、ある人間が何歳でなくなるかを正確に予測すること

には、対して興味を持たない。

何歳で亡くなるか、という結果ではなくどうすればその人がより長く

健康に生きられるかという原因を発見することこそが医学で統計学

使う目的である。

 

因果関係の洞察は分野を問わず大きな武器になる。

この因果関係の洞察については、人の頭で行なった方がいい。

日々現場の感覚をつちかいながら多少の統計リテラシーを身につけた

人間の方が、同じデータからその価値を引き出す上で大きなアドバンテージがある。

 

例えば、ある季節のみに以外な商品が売れているという分析結果に対して、

たいていの場合コンピュータや外部の人間では

その季節にこの商品をたくさん仕入れようという程度のアイデアしか出てこない

しかし、店舗や商品に関わり続けてきた人間ならその情報からピンと来ることが

ある。

実は背後にこういう現象が生じているのではという考察、

利益を生むための新しいアイデアが出て来ることがある。

これは間違いなく全てのビジネスマンが身に付けることで

特をするスキルである。

 

この本は、平均や割合といった優しい手法からスタートし、

データからいかにその背後の因果関係を洞察するかという目的の

ための統計学を説明していく。

機械学習

いよいよ、二冊目も最終章です。

 

■問題

仲間とみんなで協力して強いボスを倒すイベントを作りたい

重要なのはチーム編成をどうするか

よりチーム戦の楽しさを引き出すようなチーム編成がないか

 

■チーム戦の楽しさの定義

仲間とリアルタイムで一緒に戦っている感覚

→チーム内で同じ時間に利用している人数

データ分析を活用して「同じ時間に利用する人をチームにまとめる」

ことは可能か?

 

■分析のストーリーの整理

過去のサービス利用状況から、ユーザ毎に明日ゲームを利用する

時間帯の予測を行う。

分析結果をもとに、同じ時間帯にアクセスするであろうユーザを

まとめてチームを作る

 

■予測モデルの構築

予測モデルを構築するための、ツールは色々あり

それぞれに強みと弱みがあるが、うまくモデル構築が行える条件として

・データにある程度の規則性があること

・データにある程度のまとまりがあること

が必要で、予測モデルがうまく構築できることが多い。

 

■利用するツールの選定

データ分析の経験を積み重ねると、基礎的なデータの検証を行なった際に

ある程度このデータにはどのツールが最適なツールとなりそうかは

予想がつくが、時間がある場合は多くのツールで検証し

一番精度が高くなったものを利用するという姿勢が必要

 

■利用する学習器の選定

ロジステッィク回帰、k近傍法、単純ベイズ分類器、SVM、ランダムフォレスト

という代表的な5種類の学習器を用いて、

一番効果の高い学習器を考えていく。

あるユーザ群データでそれぞれ予測モデルを作成し、

別データ群のデータを適用し、精度を検証する

 

予測モデルからあるユーザが入るチームを探したときに

そのユーザが来るであろう時間帯となるべく同じ時間帯に多く人がいる

チームを推薦するという機能をつけることになったようす。

 

決定木分析

■テーマ

どんな行動をしたユーザが継続するか

 

ゲーム自体に特に問題はない状態ではあるが

新規ユーザの離脱が多いということでより

離脱を少なくするためにどうすればいいかを考えていく。

 

■離脱する理由よりも、継続する理由を考える

ライトユーザはコアユーザよりもゲームへの関心が低く、

継続率の低さは発生してしまいがち

継続してくれるユーザから継続する理由を見いだすことを考える

 

■楽しさを要素に分解する

楽しさは抽象的なものなので、このまま議論できない。

ゲーム内の行動を楽しさに分解する

例えば、

 ・戦い 他のユーザに戦いを仕掛ける

 ・協力 他のユーザと協力してボスを倒す

 ・メッセージ 他のユーザにメッセージを送る

 

■ソーシャルアクションを定量化する

離脱ユーザは1週間以内にやめることから

1週間以内の行動で継続が決まると予測できる

アクションを何らかの数値で出すことを考える。

アクションを何回行なったか、何日後に行なったかの2つが

考えられる。

 

■定着を数値がする方法を考える

ログイン密度を使う。

密度=ログインした日/集計期間

 

■決定木分析で一番影響の大きな分解軸を見つける

複数の項目間で影響を見るときは通常丹念に1つひとつ

クロス集計をしていくのが王道

・戦いは仕掛けずに10回以上協力したユーザは定着が良い

・三日目以降にメッセージを3回以上送り、かつ協力を7日目に10回以上したユーザは定着が良い

組み合わせの量を考えると人間が網羅できる量ではない。

このような場合に便利な分析手法として決定木分析という手法があります。

一番大きな影響のある分解軸を見つけることができる

 

■まとめ

何が問題なのかわからない場合に、要因を見つけるために

最適な手法。

やはり、問題点はない(わからない)状態でより良くしていくためにどうしていくか

というのは難しい話なんだなと感じた。