その他

Python:データ分析の流れ

スポンサーリンク

はじめに

今回は、分析を行う際の進め方について書きます。「このようにやれば絶対OK」というようなものはありませせんが、基本的な考え方を確認していきましょう。今回は全体の流れを説明して今後は各プロセスの詳細について投稿を追加していくことにします。今後の詳細については、Pythonを使って解説するので、まだPythonによる分析環境が構築できていない方は、以下を参考にして分析環境を構築してください。

 

分析の流れ

基本的な分析の流れは以下のようになります。必ずしもこの通りにやる必要はありません。ただ、はじめに何をやればよいか迷うようであれば、まずはこの流れで試してみるとよいかと思います。

  1. 目的の確認
  2. データの概要把握
  3. 問いの設定
  4. データの詳細把握

目的の確認

一番大切なのは「目的」の確認です。なんのためにやるのか、をはじめに確認しておかないと、路頭に迷ってしまいます。データを分析している中で、判断に迷うときには、いま一度、目的に立ち返って考える癖をつけましょう。

データの概要把握

目的を確認 / 整理した後にまずやることは、データの「概要把握」です。データがどのような特徴を持っているかをある程度把握することから始めます。これには、たとえば、次のようなタスクがあります。

  • 統計量の確認
  • 分布の確認
  • 相関関係の確認

もちろん、データの概要把握にはいろんなタスクがありますが、まずは上記のことからはじめるとよいでしょう。いろいろな分析テーマをこなしていく中で、自身の経験としてタスクを追加していくとよいかと思います。

問いの設定

これは、次のタスクである、「データの詳細把握」のための事前準備です。データを詳細にみるといっても、どう進めればよいか、を決めるのはなかなか難しいと思います。ここでも、「目的」を設定することで進めやすくなります。「1.目的の確認」が分析テーマ全体の目的であるのに対して、ここで設定する「目的」は、データの詳細把握のための「問い」のようなものです。何を明らかにしたいのか?がわかるように複数の「問い」を設定していきます。

データの詳細把握

ここでは、3.で設定した「問い」に答えていく作業となります。3.で設定した「問い」に答えても、十分な情報が得られない場合は、問いの設定のプロセスに戻り、「問いの設定」→「データの詳細把握」のプロセスを繰り返します。最終的な分析テーマの目的を果たすには、1.の目的の把握と、3.の問いの設定が重要なプロセスになります。3の「問い」の設定は、分析テーマの「目的」を意識しておこなうようにしましょう。仮に「問い」の設定の迷ったら、いったん、4.データの詳細把握に進んでしまっても構いません。3と4は何度も繰り返すことになるので、やりながら整理していくとよいでしょう。

スポンサーリンク

まとめ

いかがでしたでしょうか?分析の手順をこのように掲載するのは悩ましく、この通りやれば必ずうまくいくものでもありません。ただ、まず何をやればよいのかわからない、といった場合には、お役に立てるかと思い一つの形をご紹介しました。皆さんの参考になれば幸いです。

コメント

タイトルとURLをコピーしました