ロジスティック回帰

この章は理解がなかなか難しかった。

 

問題としては、ガラケーからスマホへの移り変わりが

激しい時の話でDAUが携帯電話ユーザの減少に対して

スマホユーザの上昇が少ない。

つまりトータルでDAUが減少しているということ。

 

ガラケーユーザ減少の原因の仮説は、

・自然離脱

スマートフォンで新規アカウントで初めた(少ないことがわかっている)

スマートフォンに引き継ぎをした

スマートフォンへのID移行がうまくいかなかった

以上があげられる。

 

もし、ID移行がうまくいっていないのであれば、

早急にシステムを改修する必要がある。

 

■正解つきデータがない時のデータ収集

ID移行がうまくいっていない仮説を検証するためには、

自然離脱かID移行に失敗したのかを何らかの

データで区別する必要がある。

離脱前のアクセス状況を見る方法がある。

自然に離脱するユーザはだんだんアクセス頻度が低くなってから

離脱するのに対し、ID移行に失敗したユーザはある日

突然アクセスがなくなる。

 

ID移行を完了したユーザのデータは特定できるが、

自然離脱、移行失敗の離脱はログからは判断できない。

データ上は区別できず、正解つきデータがないということ。

 

ビジネスにおいて、毎回正解がある綺麗な データとは

限らない。正解データがない中で、何らかのビジネス上意味のある

成果を出さなければならないことは珍しくないらしい。

 

どう考えればいいか。

ID移行に失敗しているユーザが多い場合を考える。

この場合、離脱ユーザと移行ユーザの離脱前月のアクセス数に

差異がなくなる。

この場合アクセス数を元に判別するモデルを作ることはできない。

逆に言えば、少なければアクセス数に差異が出るので

モデルを作ることができる。

モデルが作れれば、ID移行失敗ユーザは少ないと言えそう。

 

今回はロジスティック回帰分析を用いて判別モデルを構築する。

ロジスティック回帰分析は、目的変数が買う・買わないのような2値

の時に使う回帰モデルでシンプルでざっくりと傾向を掴むのに

最適な手法。

 

横軸をアクセス数、縦軸に0、1を取り、ID移行を1, 離脱を0

としてデータをプロットしていく。

0,1のデータに対しては、アクセス数に対しての1の割合をあつかうのが

良い。

これを行うとアクセスが増えるとID移行の割合が増えることがわかる。

 

このような割合のデータに対して、ロジスティック曲線呼ばれる

曲線を当てはめるのがロジスティック回帰分析。

ID移行の割合が0.5となるアクセス数を閾値として

それより大きいならID移行小さいなら離脱と判断することができる