2冊目

今日からは

あたらしい本を読んでいきます。

前回よりはビジネスよりでより実践的な話が学べると

いいなと思います。

 

全10章で今日は、3章まで読みました。

1,2章が全体のざっくりした話で

3−6章は、データ分析に関心がある人向けで

7−10章はデータ分析担当向け。

 

前の本のように、用語があってそれを理解するとかではないので

前と書き方が若干変わるかもしれない。

 

■データサイエンティストの3つのタイプ

ビジネス、統計学、エンジニアのそれぞれから

データサイエンティストを目指す動きがある。

データサイエンティストの業務の大半を占めるのが

分析のためのデータ整理なのでこれの時間の短縮する点において

エンジニアは長けている。

 

■データ分析のフロー

データ分析はあくまで問題解決を目的とする。

まずは、現状のあるべき姿をしっかりと把握し

そのギャップとなっている要素について問題発見を行う。

 

・現状のあるべき姿

・問題発見

・データの収集と加工

・データ分析

・アクション

 

データ分析は、現状からあるべき姿に最短ルートで近づくように、

問題を抽出することが重要で、上記のフレームワークで問題解決を

実施していくことになる。

 

■データの集計

R言語でのコード付きの説明が書かれていて親切。

CSVで出力されているデータをRで読み取り、

読み取ったデータ同士を結合させるみたいなことを

やっている。

Rを用いてグラフ表示もできるらしくこれはいいなと思った。

データ結合についてはクエリで書いたほうが早いので

ソッチのほうが良いと思った。

この場合だとCSVに吐き出しつつ、Rを書かなければならないので

時間と管理に手間がかかりそう。

しかし、クエリだと複雑になると視認性が下がるので

Rで管理できるとそのへんがわかりやすいので

知っておくのは大事かなと思った。