「実践マーケティングデータサイエンス」(学術図書出版社 著者:清水隆史・淺田晃佑 共著)がやっと届きました。この本、一時品切れでしたよね?Amazonで購入しようとすると、3800円くらいの値がついていてびっくり。定価以上で買うのは嫌だったので、楽天で入荷待ちしてました。それがやっと届いたので、さっそく読み始めよう。
少しずつ読んで感想・まとめ・メモなどを書いていくことにします。この本に興味のある方は以下からご確認ください。
リンク
CRISP-DM
データ分析プロジェクトのプロセスモデルの一つ。CRoss-Industry Standard Process for Data Miningの略らしい。反復的なプロセスになっていて大きなループと小さなループがある。大きなループは以下で構成される。
- Business Understanding(ビジネス課題の理解)
ビジネス課題を把握する工程。あいまいな状態のビジネス課題の解像度を高めて、ビジネス課題をしっかり理解することが大切。
- Data Understanding(データの理解)
データの仕様だけでなく、データ取得にかかるコストや信頼性、限界についても理解する工程。
- Data Preparation(データの準備)
理解したデータの性質をもとに、モデル構築しやすいようにデータ整形したり、データを分析しやすい形に変換する工程。
- Modeling(モデル構築)
準備したデータをもとに機械学習モデルを構築していく工程。
- Evaluation(評価)
構築したモデルを評価する工程。精度の高いモデルであるかではなく、ビジネス課題が解決できたかを評価することが大切。
- Deployment(展開/共有)
構築したモデルを実際にビジネスで活用する工程。
確かにこういうフレームワークがあると、情報の整理も全体の管理もしやすいですね。