読者です 読者をやめる 読者になる 読者になる

3-2

■洞察の統計学に必要な3つの知識

現状把握のための単純集計にしか統計学を使ってこなかった人が、

分析による因果関係の洞察に踏み出すにあたり、身に付けるべき知識が

3つある。

 

・平均値や割合などの統計指標の本質的な意味の理解

・「データを点ではなく、幅でとらえる」

・「何の値ごとに集計すべきか」

 

平均値や割合などの統計指標の本質的な意味の理解

・平均値の本質がわかれば割合もわかる

平均値と割合というのは本質的に全く同じである

通常、年齢や年収、購買金額といった数で表される情報

(量的変数)については平均値の形で集計を行う。

一方、性別や職業、商品ジャンルといった数ではなく文字で表される

情報(質的変数)については割合を集計する。

 

例えば100人に対する調査で50人が男性というデータが得られた時

男性の割合は50%という結果が得られる。

ここで、男性である度合いという量的変数で考える。

男性である度合いは男性であるとしたら1それでなければ0という

値になるものとする。

この平均値は0.5になる。これは先程の割合と同じ値である

 

「データを点ではなく、幅でとらえる」

多くの人が行なっている集計では、データの散らばりをその真ん中あたり

にあるだろうと考えられるたった一つの点飲みから理解しようとしている。

このたった1つの点は多くの情報を無視したものである。

平均年齢が20歳と言われても20歳前後の若者ばかりが

集まっている集団なのかはわからない。

そこで、統計学は、おおよそデータはどこからどこまでの範囲に

存在しているかという幅を把握するための方法を生み出した。

これは後の章で述べられます。 

 

「何の値ごとに集計すべきか」

これは統計学を因果関係の洞察に使う上でもっとも重要な枠組みである。

因果関係等はある原因によってどのように結果が変わるかということである。

 

事業に関わる色々な数値を性別ごと年代ごとに見るという集計結果は

多くの人が仕事の中で触れたことがあるものと思われる。

しかし、そもそも何の項目ごとに何の項目を集計して見るべきなのかを

考えたある人はどのぐらいいるだろうか。

仮にデータが100個あれば比較する項目は9900個あることになる。

全てを見るのは現実的ではないから、多くの人は経験と勘に基づいて

仮設を立てる。例えば、「広告認知のある顧客ほど良いブランドイメージを持っているか」という仮設に対応する集計表をみているのかもしれない。

だが、せっかく経験と勘に反する新しい発見に出会うためにデータ分析という作業を

しているのに自分の経験や勘の検証しか行わないのでは勿体無い。

 

では、どうするべきか。

データ分析を因果関係の洞察、すなわち、最終的にコントールしたい結果とそれに影響を与えうる原因の候補、という観点で捉えるのである。

この最終的にコントロールしたい結果のことをアウトカムと呼ぶ。

そしてそのアウトカムの違いに影響するかもしれない、あるいはその違いを説明

できるかもしれない要因のことを説明変数と呼ぶ。

 

データ分析を価値に繋げようとすればまず自分のデータから表現できるもののうち

「最大化したり最小化したりすべきゴールのなる項目」

が何なのかを考えなければならない。これがアウトカムである。

例えば、マーケティングであれば売り上げや顧客数を考える。

逆に広告の認知率やSNS嬢の口コミ件数はアウトカムではなくアウトプットだと

考えられるかもしれない。それら自体は目指すべきゴールではなく

あくまで途中経過であり利益と関係ないと行った状況もあり得る。

 

アウトカムが決まれば、それを左右する説明変数が重要になる。

例えば、性別で売り上げを比較したところ女性の平均売り上げが

明らかに高かったということがわかれば女性が来店しやすい店舗設計を

心がけたり、女性のよく見るメディアに広告を出稿することで、

そうした施策のコストを大きく上回る売り上げ増を見込めるかもしれない。

 

分析すべきデータが100個あったとして、そのうちどれが

最大化したり最小化したりすべきアウトカムなのかが決まっていれば

9900個の集計表をみなければならないということにはならない。

最大でも、アウトカム以外の99項目ごとにアウトカムの大小を比べる

99個の集計表を見ればそこにこれまでに考えたこともない発見がある

可能性はある。それでも多いと思う場合は以下のような視点で説明変数の優先つけ

をするといい。

 

・その因果関係が当たり前すぎるものではないこと

・アウトカムへの影響が明らかになったとしてその原因のコントロールが容易であること

・今までにあまり注目して分析されたことがないこと

 

つまり、顧客が増えると売り上げが上がるとか、

顧客一人当たりの売り上げが増えると全体の売り上げが上がると行った

そりゃそうだという思うものはわざわざ分析する必要はない。

コントロールが容易であることについて、例えば夏になればビールが売れるからと行って季節を夏に変えることはできない。

今まで分析されたことがことないについて、もっともらしい仮説を考えるとは

逆のアプローチである。因果関係が当たり前でなくともコントロール可能であれば

分析すれば新しい発見に出会えるかもしれない。

 

 

三冊目

序章

 

■ビジネスに必要なのは、人間を洞察するための統計学

一人ひとりが多様で、意思決定のメカニズムが複雑で、

こちらからの働きかけで何かを変化させることが難しいのが人間。

 

この本で説明する統計学は全て人間を洞察し、その行動や

あり方を少しだけ改善するためのもの。

 

個人や集団レベルで人間の挙動を洞察し、それ少しだけ

変容するための方法をデータから明らかにすることだけ。

 

■人間の行動の因果関係を洞察する

統計学は目的別に3つに分けられる

人間の行動の因果関係を洞察する

・現状の把握

・今後の予測

 

現状の把握についてはすでにビジネスの現場では

実用上あまり問題にならない程度に使いこなせている

 

今後の予測については、分析手法云々の前に

それ以外の様々な事情から実際に予測を当てるというのはとても難しい。

 

この本では人間の行動の因果関係を洞察することに焦点を当てていく

 

■洞察の統計学はどのように役立つのか

例えば、マーケティング部門などでは予測より洞察の方が重要になる

完成した商品に対して、

この商品がいくつ売れるかという予測よりも、

・どのようなプロモーションをすれば商品が売れるか

・どのような商品を作ればヒットするか

という洞察の方が利益の源泉となる。

すなわち、購買という求める結果の背後にどのような原因が存在するか

という因果関係をさぐりあてることが重要なのである。

 

医学においても同様のことが言える。

医学関係者のほとんどは、ある人間が何歳でなくなるかを正確に予測すること

には、対して興味を持たない。

何歳で亡くなるか、という結果ではなくどうすればその人がより長く

健康に生きられるかという原因を発見することこそが医学で統計学

使う目的である。

 

因果関係の洞察は分野を問わず大きな武器になる。

この因果関係の洞察については、人の頭で行なった方がいい。

日々現場の感覚をつちかいながら多少の統計リテラシーを身につけた

人間の方が、同じデータからその価値を引き出す上で大きなアドバンテージがある。

 

例えば、ある季節のみに以外な商品が売れているという分析結果に対して、

たいていの場合コンピュータや外部の人間では

その季節にこの商品をたくさん仕入れようという程度のアイデアしか出てこない

しかし、店舗や商品に関わり続けてきた人間ならその情報からピンと来ることが

ある。

実は背後にこういう現象が生じているのではという考察、

利益を生むための新しいアイデアが出て来ることがある。

これは間違いなく全てのビジネスマンが身に付けることで

特をするスキルである。

 

この本は、平均や割合といった優しい手法からスタートし、

データからいかにその背後の因果関係を洞察するかという目的の

ための統計学を説明していく。

機械学習

いよいよ、二冊目も最終章です。

 

■問題

仲間とみんなで協力して強いボスを倒すイベントを作りたい

重要なのはチーム編成をどうするか

よりチーム戦の楽しさを引き出すようなチーム編成がないか

 

■チーム戦の楽しさの定義

仲間とリアルタイムで一緒に戦っている感覚

→チーム内で同じ時間に利用している人数

データ分析を活用して「同じ時間に利用する人をチームにまとめる」

ことは可能か?

 

■分析のストーリーの整理

過去のサービス利用状況から、ユーザ毎に明日ゲームを利用する

時間帯の予測を行う。

分析結果をもとに、同じ時間帯にアクセスするであろうユーザを

まとめてチームを作る

 

■予測モデルの構築

予測モデルを構築するための、ツールは色々あり

それぞれに強みと弱みがあるが、うまくモデル構築が行える条件として

・データにある程度の規則性があること

・データにある程度のまとまりがあること

が必要で、予測モデルがうまく構築できることが多い。

 

■利用するツールの選定

データ分析の経験を積み重ねると、基礎的なデータの検証を行なった際に

ある程度このデータにはどのツールが最適なツールとなりそうかは

予想がつくが、時間がある場合は多くのツールで検証し

一番精度が高くなったものを利用するという姿勢が必要

 

■利用する学習器の選定

ロジステッィク回帰、k近傍法、単純ベイズ分類器、SVM、ランダムフォレスト

という代表的な5種類の学習器を用いて、

一番効果の高い学習器を考えていく。

あるユーザ群データでそれぞれ予測モデルを作成し、

別データ群のデータを適用し、精度を検証する

 

予測モデルからあるユーザが入るチームを探したときに

そのユーザが来るであろう時間帯となるべく同じ時間帯に多く人がいる

チームを推薦するという機能をつけることになったようす。

 

決定木分析

■テーマ

どんな行動をしたユーザが継続するか

 

ゲーム自体に特に問題はない状態ではあるが

新規ユーザの離脱が多いということでより

離脱を少なくするためにどうすればいいかを考えていく。

 

■離脱する理由よりも、継続する理由を考える

ライトユーザはコアユーザよりもゲームへの関心が低く、

継続率の低さは発生してしまいがち

継続してくれるユーザから継続する理由を見いだすことを考える

 

■楽しさを要素に分解する

楽しさは抽象的なものなので、このまま議論できない。

ゲーム内の行動を楽しさに分解する

例えば、

 ・戦い 他のユーザに戦いを仕掛ける

 ・協力 他のユーザと協力してボスを倒す

 ・メッセージ 他のユーザにメッセージを送る

 

■ソーシャルアクションを定量化する

離脱ユーザは1週間以内にやめることから

1週間以内の行動で継続が決まると予測できる

アクションを何らかの数値で出すことを考える。

アクションを何回行なったか、何日後に行なったかの2つが

考えられる。

 

■定着を数値がする方法を考える

ログイン密度を使う。

密度=ログインした日/集計期間

 

■決定木分析で一番影響の大きな分解軸を見つける

複数の項目間で影響を見るときは通常丹念に1つひとつ

クロス集計をしていくのが王道

・戦いは仕掛けずに10回以上協力したユーザは定着が良い

・三日目以降にメッセージを3回以上送り、かつ協力を7日目に10回以上したユーザは定着が良い

組み合わせの量を考えると人間が網羅できる量ではない。

このような場合に便利な分析手法として決定木分析という手法があります。

一番大きな影響のある分解軸を見つけることができる

 

■まとめ

何が問題なのかわからない場合に、要因を見つけるために

最適な手法。

やはり、問題点はない(わからない)状態でより良くしていくためにどうしていくか

というのは難しい話なんだなと感じた。

 

 

クラスタリング分析

この章は、いきなり主成分分析などの知らない分析が出てきて

話が飛躍しすぎている。初見でわかる人いないと思う。

 

ゲームをプレイしている人たちはどんな人たちかを理解する

方法として、20代男性が多いなどと分けることがありますが

ゲームをプレイしているユーザを理解するには不十分。

 

次の施策に繋げやすい、ゲームの内容にそった分類をしたい。

ゲーム上の行動パターンでセグメント分けできるとわかりやすい。

 

行動データを用いて似ているユーザをグルーピングする方法として

クラスタリングと呼ばれる手法が適切。

クラスタリングの1つであるk-means法を使う。

グルーピングの手順は以下の通り。

 

1. k個のクラスタの中心の初期値を決める

2. 各データと1.でのk個のクラスタ中心との距離を求め、もっとも近いクラスタに分類

3. 形成されたクラスタの中心を求める

4. クラスタの中心が変化しない時点までステップ2. 3. を繰り返す

 

行動ログは様々な行動について、記録されているため

ほとんどが0のログだったり強い相関をもつログがあります。

例えば、バトル回数が多いほどボス討伐回数が多いなどです。

このようなデータがある場合、k-means法がうまく動かない可能性が

ある。なので、これらをデータから排除します。

(読んでる限りこれはよしなにやるらしい

 

弱い相関を持った、データはまだいくつか残っている場合がある。

このままでも動くが、説明変数は直交であることが望ましい。

(ちょっと、何言ってるかわからない

 

これを解決するために、主成分分析を行う。

主成分分析は、相関のない主成分と呼ばれる値に変換すること。

 

ここまでで、データが準備できたのでクラスタリングを実行

したいところだか、クラスタの数をどうするかという問題がある。

クラスタの数は分析者に委ねられている。

どんなユーザがいるのかを知るのが目的なので、

あまり多すぎると理解しにくい。今回だと5個ぐらいが良さそう。

 

クラスタリングした結果をRを使えばレーダーチャートで表示できるらしい。

今回だと、協力したい(友達の応援などをよく行なっている)ユーザが

ARPU, ログイン日数が他クラスタより高く、協力を促す施策を行うことに

なりましたとさ。

 

■まとめ

今回の前提はゲームのユーザが頭打ちになっていて、

既存ユーザを大事にしていきたいというところから

どういうユーザがいるのだろうという話に繋がっていきます。

今まで、色々な分析手法がありましたがそれぞれに使うべき

場所があり課題から手法を決定することが大事であると感じました。

 

また、今回は実際に施策をしたときに振り返りができるように

この分析を自動化し、レポートできるようにしています。

こういうことも考えられるようにならないとなぁと思いました。

 

 

ロジスティック回帰

この章は理解がなかなか難しかった。

 

問題としては、ガラケーからスマホへの移り変わりが

激しい時の話でDAUが携帯電話ユーザの減少に対して

スマホユーザの上昇が少ない。

つまりトータルでDAUが減少しているということ。

 

ガラケーユーザ減少の原因の仮説は、

・自然離脱

スマートフォンで新規アカウントで初めた(少ないことがわかっている)

スマートフォンに引き継ぎをした

スマートフォンへのID移行がうまくいかなかった

以上があげられる。

 

もし、ID移行がうまくいっていないのであれば、

早急にシステムを改修する必要がある。

 

■正解つきデータがない時のデータ収集

ID移行がうまくいっていない仮説を検証するためには、

自然離脱かID移行に失敗したのかを何らかの

データで区別する必要がある。

離脱前のアクセス状況を見る方法がある。

自然に離脱するユーザはだんだんアクセス頻度が低くなってから

離脱するのに対し、ID移行に失敗したユーザはある日

突然アクセスがなくなる。

 

ID移行を完了したユーザのデータは特定できるが、

自然離脱、移行失敗の離脱はログからは判断できない。

データ上は区別できず、正解つきデータがないということ。

 

ビジネスにおいて、毎回正解がある綺麗な データとは

限らない。正解データがない中で、何らかのビジネス上意味のある

成果を出さなければならないことは珍しくないらしい。

 

どう考えればいいか。

ID移行に失敗しているユーザが多い場合を考える。

この場合、離脱ユーザと移行ユーザの離脱前月のアクセス数に

差異がなくなる。

この場合アクセス数を元に判別するモデルを作ることはできない。

逆に言えば、少なければアクセス数に差異が出るので

モデルを作ることができる。

モデルが作れれば、ID移行失敗ユーザは少ないと言えそう。

 

今回はロジスティック回帰分析を用いて判別モデルを構築する。

ロジスティック回帰分析は、目的変数が買う・買わないのような2値

の時に使う回帰モデルでシンプルでざっくりと傾向を掴むのに

最適な手法。

 

横軸をアクセス数、縦軸に0、1を取り、ID移行を1, 離脱を0

としてデータをプロットしていく。

0,1のデータに対しては、アクセス数に対しての1の割合をあつかうのが

良い。

これを行うとアクセスが増えるとID移行の割合が増えることがわかる。

 

このような割合のデータに対して、ロジスティック曲線呼ばれる

曲線を当てはめるのがロジスティック回帰分析。

ID移行の割合が0.5となるアクセス数を閾値として

それより大きいならID移行小さいなら離脱と判断することができる

 

 

 

 

重回帰分析

今までの分析手法は、関係性を明確化していた。

例えば、値引き額と販売量は関係があるといったぐあい。

この分析手法では、実際にどれだけ値引きをするとどれだけ販売量の

増加を見込めるのかというのはわからない。

 

こんなときに、役立つのが回帰分析(重回帰分析)。

横軸と縦軸にデータを散布した図において、

それぞれのデータを図にプロットする。

このプロットに一番当てはまりがよくなるような直線を引いて

縦軸の値から横軸の値を予測していくのが(線形)回帰分析。

 

導き出された直線から以下の数式を得られる

インストール数=広告費x + y

回帰分析は、xとyを推定する分析になる。

 

例えば、広告をテレビにかけるのか、雑誌広告にかけるのか

というものに対して最適な広告量を決めるのにも使える。

テレビの広告によるインストール数を回帰分析したときに

インストール数=1.35 x TV広告費 + 188

、同様に雑誌広告について

インストール数=7.25 x 雑誌広告費 + 188

と導けた。

 

このことから

 

インストール数=1.35 x TV広告費 + 7.25 x 雑誌広告費 + 188

と言えます。なので雑誌広告に広告費を振った方がいいことは

明らかである。

 

■まとめ

重回帰分析も割と手軽そうな感じではあった。

ただ、どれに使えばいいのかなという迷いはある感じ。

様々な分析手法を理解して課題に対して最適な分析手法を取り入れる

ことが重要なのではないかと思った。