読者です 読者をやめる 読者になる 読者になる

クロス集計

今日は第4章を読みました。

先週と違い、土日の2日に分けて書けました。

これが平日にできるようになるとより優秀なんですが。

 

■クロス集計

4章はクロス集計の話で、その使い方を実例をもとに示していました。

クロス集計は手段の一つで先日書いたフレームワーク

基本に考えていくことが重要。

なので、まず何が問題でどうあるべきかを考えて仮説を

立てることが重要。

 

今回の例だと、ユーザ数が今まで順調に伸びていたが、

ある月に大きく減少した。

原因を調べて、改善を行いたい。

ここで、現象はユーザ数の現象で

あるべき姿は、先月同様のユーザ数に戻すことになる。

 

分析には、検証型と検索型の2つあり、

先日書いた売上現象はプロモーションを行わなくなったからという

有力で具体的な仮説が想定できたので、その仮説検証の分析を

行った。これが検証型データ分析。

今回のように、現象はわかっているが原因が明確でない場合に

データ分析によって原因を特定していく方法は検索型データ分析と

言われている。

 

仮説を複数個考えてみて、それに関連する部署に実際はどうなのか

を聞いてみることが重要。

ヒアリングをした上で、まだ可能性のある仮説について調べてみる。

今回だと、性別や年代に分けたときにどこかのセグメントで

ユーザの減少が起きているのではないかと仮説を立てた。

 

縦軸に月(先月、今月)横軸に性別の表を作成する。

このように2つの因果関係をかけ合わせて集計する分析手法を

クロス集計という。

 

今回だと、男女ともにユーザ数の減少があり、性別は関連が

低いことが見て取れる。

同様に年代別に分けた場合も全体的に現象している。

 

次は年代と性別をかけ合わせ見てみる。

これをn重クロス集計という。

年代と性別であれば2重クロス集計になる。

 

この場合も全体的な減少があり、それが原因ではないと見て取れる。

 

ここまでくると別の要素が無いか探してみる。

たとえばOS別にクロス集計する。

すると今回の場合、Androidユーザが大きく減少しており、

それをもとにエンジニアに聞いてみると、減少し始めた日に

アプリアップデートを行っておりそこに不具合があったことがわかる。

といういい感じに出来上がったストーリとなっていた。

 

今回の予め立てた仮説をふりかえると

・ユーザ数が減少している(事実

・どこかのセグメントが現象しているのではないか(仮説

・セグメントにあった施策を行う(解決策

であり

・ユーザ数の現象(事実

Androidユーザの減少(事実

・不具合を解消し、これを改善する施策を行い先月同等に戻す(解決策

となったことがわかる。

 

■感想

クロス集計について、Excelのピボットテーブルを使うと

便利にできるようだが、多重クロス集計は面倒らしい。

そのときにR言語を用いるとこのあたりもできるようになるらしい。

SQLからデータを抽出してもクロス集計に変形するのが

面倒なのでこういうのを使えるようになるといいと感じた。

 

話のストーリ的にしょうがないかもしれないが、

突然にセグメントに問題があるのではと言う仮説が入ったり

OS別に急に見てそれが見事にあたるという若干の無理矢理感を感じた。