クロス集計

今日は第4章を読みました。

先週と違い、土日の2日に分けて書けました。

これが平日にできるようになるとより優秀なんですが。

 

■クロス集計

4章はクロス集計の話で、その使い方を実例をもとに示していました。

クロス集計は手段の一つで先日書いたフレームワーク

基本に考えていくことが重要。

なので、まず何が問題でどうあるべきかを考えて仮説を

立てることが重要。

 

今回の例だと、ユーザ数が今まで順調に伸びていたが、

ある月に大きく減少した。

原因を調べて、改善を行いたい。

ここで、現象はユーザ数の現象で

あるべき姿は、先月同様のユーザ数に戻すことになる。

 

分析には、検証型と検索型の2つあり、

先日書いた売上現象はプロモーションを行わなくなったからという

有力で具体的な仮説が想定できたので、その仮説検証の分析を

行った。これが検証型データ分析。

今回のように、現象はわかっているが原因が明確でない場合に

データ分析によって原因を特定していく方法は検索型データ分析と

言われている。

 

仮説を複数個考えてみて、それに関連する部署に実際はどうなのか

を聞いてみることが重要。

ヒアリングをした上で、まだ可能性のある仮説について調べてみる。

今回だと、性別や年代に分けたときにどこかのセグメントで

ユーザの減少が起きているのではないかと仮説を立てた。

 

縦軸に月(先月、今月)横軸に性別の表を作成する。

このように2つの因果関係をかけ合わせて集計する分析手法を

クロス集計という。

 

今回だと、男女ともにユーザ数の減少があり、性別は関連が

低いことが見て取れる。

同様に年代別に分けた場合も全体的に現象している。

 

次は年代と性別をかけ合わせ見てみる。

これをn重クロス集計という。

年代と性別であれば2重クロス集計になる。

 

この場合も全体的な減少があり、それが原因ではないと見て取れる。

 

ここまでくると別の要素が無いか探してみる。

たとえばOS別にクロス集計する。

すると今回の場合、Androidユーザが大きく減少しており、

それをもとにエンジニアに聞いてみると、減少し始めた日に

アプリアップデートを行っておりそこに不具合があったことがわかる。

といういい感じに出来上がったストーリとなっていた。

 

今回の予め立てた仮説をふりかえると

・ユーザ数が減少している(事実

・どこかのセグメントが現象しているのではないか(仮説

・セグメントにあった施策を行う(解決策

であり

・ユーザ数の現象(事実

Androidユーザの減少(事実

・不具合を解消し、これを改善する施策を行い先月同等に戻す(解決策

となったことがわかる。

 

■感想

クロス集計について、Excelのピボットテーブルを使うと

便利にできるようだが、多重クロス集計は面倒らしい。

そのときにR言語を用いるとこのあたりもできるようになるらしい。

SQLからデータを抽出してもクロス集計に変形するのが

面倒なのでこういうのを使えるようになるといいと感じた。

 

話のストーリ的にしょうがないかもしれないが、

突然にセグメントに問題があるのではと言う仮説が入ったり

OS別に急に見てそれが見事にあたるという若干の無理矢理感を感じた。

2冊目

今日からは

あたらしい本を読んでいきます。

前回よりはビジネスよりでより実践的な話が学べると

いいなと思います。

 

全10章で今日は、3章まで読みました。

1,2章が全体のざっくりした話で

3−6章は、データ分析に関心がある人向けで

7−10章はデータ分析担当向け。

 

前の本のように、用語があってそれを理解するとかではないので

前と書き方が若干変わるかもしれない。

 

■データサイエンティストの3つのタイプ

ビジネス、統計学、エンジニアのそれぞれから

データサイエンティストを目指す動きがある。

データサイエンティストの業務の大半を占めるのが

分析のためのデータ整理なのでこれの時間の短縮する点において

エンジニアは長けている。

 

■データ分析のフロー

データ分析はあくまで問題解決を目的とする。

まずは、現状のあるべき姿をしっかりと把握し

そのギャップとなっている要素について問題発見を行う。

 

・現状のあるべき姿

・問題発見

・データの収集と加工

・データ分析

・アクション

 

データ分析は、現状からあるべき姿に最短ルートで近づくように、

問題を抽出することが重要で、上記のフレームワークで問題解決を

実施していくことになる。

 

■データの集計

R言語でのコード付きの説明が書かれていて親切。

CSVで出力されているデータをRで読み取り、

読み取ったデータ同士を結合させるみたいなことを

やっている。

Rを用いてグラフ表示もできるらしくこれはいいなと思った。

データ結合についてはクエリで書いたほうが早いので

ソッチのほうが良いと思った。

この場合だとCSVに吐き出しつつ、Rを書かなければならないので

時間と管理に手間がかかりそう。

しかし、クエリだと複雑になると視認性が下がるので

Rで管理できるとそのへんがわかりやすいので

知っておくのは大事かなと思った。

 

 

 

 

相関

1週間に2回ぐらいやらないと、進みが良くないので

2回やることにしましたが

1日に2回書いてどうすんねんというところではあります。

 

■相関図

あるいは散布図と呼ばれる。

例えば、学生が4人いてそれぞれの科目のテストの点数を表すとき

科目Aの点数をx軸、科目Bの点数をy軸にして表した図は散布図になります。

 

■相関

科目AとBの場合を考えると

科目Aの点数が高いとき科目Bの点数も高い場合

正の相関があるという。

どうように科目Aの点数が高いとき科目Bの点数が低い場合

負の相関があるという。

 

■相関の強弱

正負いずれの相関も1つの直線に接近して分布しているほど

相関が強いといい、逆に直線から離れているほど

相関が弱いという。

またいずれの傾向も見られない場合相関がないという。

 

相関係数

相関の強さを数値化するときに、正の相関はプラスの値を、

負の相関はマイナスを値を、相関がない場合は0の値を取る

ものであれば便利。

また、正の相関で、ある直線上に完全に分布するものを

1、同様に負の相関である場合は−1をとるように

標準化しておけば、相関図同士の相互比較が出来て便利。

このとき、1のものは正の完全相関、−1のものは負の完全相関

と呼びます。

この1から−1の値は相関係数と呼ばれる。

そして、この相関係数を算出する式がなかなか複雑なので

省略。

 

■因果関係

一般に相関係数が高いからといっていつも一方が他方に

影響を及ぼす因果関係があるわけではない。

たとえばある都市の人口が増えれば居酒屋の店舗数も増えると

思われるが、居酒屋の店舗数が増えても人口は増えない。

 

■おわり

最後のページに

ここまで読み進めてきたアナタは、

もう確実に統計の基本が見についているワン!

と書いてあるが、そんな感じはあんまりしない。

というか、これをどういかして行こうかというのが

イメージできない。

もう少しビジネス寄りなものを次は見ていったほうが良さそうだなぁ。

検定

■仮説

コインを5回投げて5回連続表が出たときに、そのコインは本当に2分の1の

確率で表裏が決定するのか。

このときに、かたよっていないという仮説を立てて考える。

この場合かたよっていない確率は3%になります。

この確率をもっと少なくするため(仮説をより精度高く検証するため)には

試行回数を増やすと良い。

例えば6回続けて表が出るのは1.6%

7回続けて表が出るのは0.8%となり

7回までいくとこのコインは2分の1で裏表が決定されないと

直感的に予測できるようになってくる。

 

■危険率

5回投げたときにかたよっていない確率は3%になるが

この3%に実際に該当する場合がある。

この確率を危険率という。(または有意水準という)

検定というのは絶対に間違っているということは言えず

危険率3%でかたよりがあるという形になる。

 

■帰無仮説

検定は、主張したことと反対の仮説を立てる。

無に帰することを予定してという意味で

この仮説のことを帰無仮説という。

5回連続でコインが表が出る場合、一般的にこのコインは

偏りがあると思われるので、帰無仮説を立てる場合

このコインはかたよりがないと仮説を立てることになる。

仮説が正しいとして、実際に起こった事象の確率を計算する。

もしこの確率が非常に小さければ仮説からすれば

起こるはずのないことが起こったことになり、仮説は

間違っていると判断せざるをえない。

このとき、仮説は「棄却される」という。つまり無に帰した。

 

■危険率2

危険率はあらかじめ決めておく。

危険率の数値は検定する目的に応じて異なる。

ズバリこれだというものは決められないらしい。

一般には1%または5%を使うことが多い。

仮に危険率を5%と決めると、コイン5回連続表がでる

確率は3%であり、仮説は棄却されます。

1%にすると棄却されないことになる。

 

 

 

 

推定2

今までの投稿を見直すと何書いてあるかわからないところが

ちょくちょくあるので、まだ理解度は低いんだろうなぁという

印象。実際に手を動かしてやってみないと理解は低いかも。

目標は週一以上で投稿することだが、理解をすすめるという意味では

実際にやってみるみたいな目標がいいのかもしれない。。

 

■点推定

前回からの続きですが、視聴率を600台の標本中99台が見ていたという

データから推定し、視聴率p=99/600=0.165とする。

視聴率をズバリ1点標本の視聴率で推定するので点推定と呼ばれるらしい。

しかしこの推定は標本数の大小が考えられていない。

 

区間推定

幅をもたせた推定。

計算式を書くのが非常に面倒なので省略…

95%の確からしさ(分布の両端から2.5%ずつを取り除くこと)で

推定するとき、

X-1.96σ≦m≦X+1.96σと表せる。

1.96は分布の端から2.5%を除いたときの標準偏差分布の値。

Xは99台。mは600p、σは9.09なので、

0.135≦p≦0.195と推定できる。

このような推定を区間推定という

この不等式が成り立つ確率95%のことを区間推定の信頼度という。

また、0.135から0,195は信頼区間と言われます。

まとめると信頼度95%で視聴率は13.5%から19,5%の間にあることが推定されました。

 

文章は短いですが、裏でなんでだろうというので

色々振り返ってるので結構時間がかかりました。

次は検定の話です。最終章らしいので次の本見つけるか

違うアプローチをするか考えないと。

 

 

推定

一部分から全体を推定する話

 

■部分から全体を推測する方法

例えば、成人男性の平均身長を求めるときに

全員を調査するのは時間がかかる。

時間がかかると調査したデータの価値もどんどん

なくなっていく。

なので、一部の人を選び出し全体を推測することが

行われている。

 

■母集団

調査の対象となる者

 

■標本

母集団から取り出される一部のもの

 

・すべてを調査するのが難しい例

1 母集団の数が非常に多い場合

2 缶詰の品質調査のように、母集団はさほど多くないがすべて

調査することが不可能な場合

3 来年の完全失業率のように、未来に起こるため

現時点では調査が不可能な場合

 

■視聴率

テレビの視聴率。

視聴率は全体のテレビ台数のうち対象の番組を見ているテレビの割合。

しかし全てのテレビを調査することは

数が膨大で難しい。まぁ今ならできる気がしないでもない。

 

■標本調査

一部について抜き出して調査すること。

どのぐらい抜き出すかが問題になってくる。

少なすぎず、多すぎずな標本数を導き出す

論理的根拠を示してくれるのが推定です。

 

■標本の数は600

1997年の古いデータだが、

当時の関東の世帯数は1455万世帯となっており、

標本の数は600らしい。少ない。

 

■推定

1455万台のテレビの中から、標本を600台を選び

ある番組Mの視聴状態を調べたところ99台がこの番組を

見ていたとすると視聴率は何%と推定されるか。

1455万台のテレビの中からでたらめに1台を選んだとき

番組Mを見ている事象をAとすると、

この時Aが起きる確率は視聴率pに等しいと考えられる。

そして600台の標本をでたらめに選んだときに事象Aは

独立で確率はpであるとします。

なので600回の独立試行で、事象Aがr回起きる確率といえ、

以下のように表せる。

 

P=(X=r)=600Cr * p^r * (1-p)^(600-r)

 

これは以前学んだ二項分布です。

したがって平均mと標準偏差σは

平均m=600p、標準偏差σ=√600p(1-p) となる。

分布

そろそろ、数式とかグラフが重要になってきて

文字だけで書くのが辛くなってきた。

 

■場合の数

答えが〜通りになるやつ

5人の中から順序を考えないで、3人を選ぶときに何通りあるか

という問題。

順序を考える場合と、考えない場合の違いを理解することが重要

 

■順序を考える場合

5人から3人を選ぶ場合、

5人×4人×3人=60通り

 

■順列

異なるN個のものから、R個取って並べる方法は

N個からR個とる順列と呼ばれる

その総数はnPrと表す。

 

■順序を考えない場合

N個の中から、順序を問題にしないで、R個のものを

選ぶ組み合わせの総数のことを nCrと表す。

 

■二項分布

事象Aが起こる確率をp、起こらない確率をqとして

この試行をn回繰り返したときに事象Aが起こる回数を

表す確率変数をXとするとX=kとなる確率は

 

p(X=k) = nCk*p^k*q^n-k と表せる。

 

nを大きくしていくと山なりのグラフになる

nを非常に大きな数にすると正規分布に近づく

 

正規分布

数式が出てきたが、記載しにくいのであきらめる。

確率変数Xは平均m、標準偏差σの正規分布に従うみたいな感じで言える

N(m,σ)と表せる。

誤差分布とも呼ばれる。

 

正規分布は、平均と標準偏差が分かれば、値が決まる。

このような連続的な確率分布を表す関数を 確率密度関数という。

かんたんに、密度関数ということもある。

 

■変曲点

正規分布確率密度関数は平均mを中心に左右対称になっている

平均から右へσ、左へσいったところに変曲点がある。

これは曲線の凹凸の変わり目を示す点

 

■3シグマ範囲

正規分布のほとんどの事象は3シグマ範囲内に入る。

m±σの間の面積は68.26%

m±2σの間の面積は95.44%

m±3σの間の面積は99.73%になる。

 

■標準正規分布

これも、ややこしいのしょうりゃく。

これを用いての確率の求め方は簡単でやや感動した。

実際に使うとなると、正規分布していることが前提になっているので

実際はそういうの無いよねみたいなことになるのだろうか。

分布データをもとに正規分布と仮定して平均と標準偏差をそれっぽく

出してくれる方法もあったりするのだろうか。

 

きょうはここまでで、次は推定の章。面白そう。