実践 マーケティングデータサイエンスを読み進めて学んだこと、気づいたことをメモしていきます。今回はCRISP-DMでいう「データの理解」を扱った部分です。今回の第五章は前回に続き、探索的データ分析を扱います。
▶ CRISP-DMについては以下の記事をご覧ください。
探索的データ分析(後編)
- 「外れ値」を分析対象外にしたり、「欠損値」を補完することがあるが、ビジネスにおけるデータサイエンスでは、「外れ値」や「欠損値」が重要な意味を持つことがある
- グラフや表などは、プログラミングを進めているうちに何をやろうとしていたかわからなくなることがるため、思いついたことはラフスケッチしておく
- 指標が複数あるときに一覧表を作ってみると比較がしやすく気づきを得やすい。また、作成した一覧表からgroupbyすることでグループごとの特徴などを見つけることができる
- 「率」の指標に関してはgroupbyするときに2つの考え方がある。例えば、CVRでいうと、「CVRを平均して算出」するものと「全体からあらためてCVRを算出」するものとがある。どちらが正しいというものではなく、どちらも分析において重要な指標になりうる。指標がどのような意味を持つのかを正しく理解することが大切。
▶ この本に興味を持った方は以下からどうぞ。
リンク