実践 マーケティングデータサイエンスを読み進めて学んだこと、気づいたことをメモしていきます。今回は第三章のCRISP-DMでいう「データの理解」を扱った部分です。
▶ CRISP-DMについては以下の記事をご覧ください。
データの理解
この章ではデータの仕様をしっかり理解することが大切であることを学んだ。活用するデータにはどんなものがあるか、各データの名称や構造や単位、その他の細かなルールも理解しておく必要がある。
また、CRISP-DMでは「ビジネスの理解」→「データの理解」は一方通行ではなく、「ビジネスの理解」⇆「データの理解」のように双方向で描かれているように、手元にあるデータで課題がどれだけ解決できそうかを立ち戻って考えることも大切となる。
また、新たなデータを使う際には以下のリスクがあることも考慮に入れて判断が必要となる。
- データ取得には金銭的コストがかかる
- データ理解のために時間的コストがかかる
- 手元のデータとの紐づけを考える必要がある
ほしいデータがあったとしても、課題解決にダイレクトに結びつかない場合は保留にする、という選択肢もある。どのようなデータを集めるべきで、どのようなデータを集めないのか、その判断をするうえでビジネスの課題解決への貢献度合いを見積もるとよい。
▶ この本に興味を持った方は以下からどうぞ。
リンク