Pythonでデータ分析をするための基礎知識を学ぶステップ

この記事はこんな方におススメです

データ分析をはじめたいが、どのように学習を進めればよいかわからない方
データ分析の基本的な部分の全体像を把握しておきたい方
データ分析の勉強を始めたが、進め方に迷っている方

▶ まだデータ分析の環境構築が済んでいない方は、まず環境構築からはじめましょう。以下の記事を参考にしてください。（以前はAnacondaによるインストールをおススメしていましたが、Python公式からインストールする方法をおススメに変更しました）

Pythonのインストールを基本から解説（Windows）

Pythonのインストール方法を基本から解説します。以前は、Anacondaをおススメしていました。個人が非ビジネス目的で利用する場合は費用が発生しないのですが、商用利用にはライセンス費用が発生していしまいます。そこで、今回はPythonの公式サイトからインストールする方法を解説します。

はじめに

今回はPythonを使ってデータ分析をするために必要な知識を最速で身につける学習ステップをご紹介します。まずは目の前にあるテーブルデータをいろんな見方ができるようになりましょう。

いろんな学び方があると思いますが、最初は細部にこだわらず、概要を把握したらどんどん端折って実際にデータを扱ってみるのがよいです。実際にデータを扱ってみると、細部を知らないとできないことに遭遇するので、その都度、調べて問題を解決していく方法が結局早く学ぶことにもなりますし、定着もしやすいです。

逆にはじめからすべてを完璧に学ぼうとすると、時間もかかりますしなかなか実践に取り組めないため、知識の定着も期待できません。

EXCELやPowerPointなどのOfficeアプリケーションもすべての機能を知っているわけではないですよね？もしかしたらこれらの機能の半分も知らないかもしれません。それでも日常の業務で利用できていますし、必要なことはその都度調べているかと思います。

データ分析の学習についても特別なことはありません。同じように「実践」することを重視して進めると結果的に早く身に着けることができるでしょう。必要なのは「最低限」の知識です。学習の初段階では深く学ぼうとせずに概要の把握と最低限の知識を意識するようにしてください。

まずは深く学ぼうとせずに全体の概要の把握と最低限の知識を身につけることが大事

データ分析の基礎知識を学ぶ学習ステップ

Step1

Pythonの基本文法を学ぶ
Step2

データ分析に必須のライブラリを学ぶ
Step3

データ分析の流れの確認する
Step4

データ分析の各ステップの基本を学ぶ
step5

実践する
Step6

興味が沸いたものを掘り下げて学ぶ

Pythonの基本文法

まずはデータ構造と基本構文を押さえましょう。といっても構える必要はありません。データ構造については、「リスト型」「辞書型」「文字列型」「集合」があって、それぞれどのようにデータを追加・削除・抽出するかがわかれば十分です。

▶ リスト型についてはこの記事で基本をおさえましょう。たったこれだけです。

Python初心者向け：リストを基本から解説

Python初心者の方向けに、基本となるデータ型であるリストについて基本から解説します。リストは数値や文字列などと同じデータ型の仲間です。複数のデータを並べて管理することができます。リストの作り方から、要素の追加・更新・削除の方法や使い方を説明します。

▶ 辞書型については以下の記事をご覧ください。まずはこれだけ抑えておけばよいです。

Python初心者向け：辞書型を基本から解説

Python初心者の方向けに辞書型を基本から解説します。まずは、辞書型の基本をおさえましょう。辞書型の定義の仕方、値を取り出す方法、辞書型に要素を追加する方法を学びます。最後に、辞書型から登録されているkeyやvalue、を取り出す方法、keyとvalueのセットを取り出す方法まで扱います。

▶ 文字列型については以下の記事をご覧ください。まずはこれだけ抑えておけばよいです。

Python初心者向け：文字列型を基本から解説

Python初心者の方向けに文字列型について基本から解説していきます。プログラムでは、文字の集まりを文字列として扱います。今回はこの文字列型についてその定義方法、連結の方法、連結時の注意点を解説します。この記事で、文字列型の最低限の知識を身につけることができます。

次に実際にこれらを扱うにあたって、基本的な構文として「if文」「for文」を学びましょう。「if文」を知ることで、条件分岐ができるようになり、処理の幅が広がります。また、「for文」を学ぶことで繰り返し行う処理ができるようになります。

▶ if文を基本から解説した記事はこちらです。これで誰でもif文を書くことができるようになります。

Python初心者向け：if文で条件分岐する方法を基本から解説

Python初心者の方向けにif構文を基本から解説します。条件によって処理を分ける際に必須となる構文です。いくつかパターンがあるので、まずは基本の形を確認して、その後、複数の条件で分岐させる方法やfor文と組み合わせた使い方まで扱います。

▶ for文による繰り返し処理の仕方は、この記事をご覧ください。

Python初心者向け：for文でループ処理する方法の基本

Python初心者の方向けにfor文によるループ処理を基本から解説していきます。まずは、for文の記法を確認して、いくつかのパターンを見ていくことにしましょう。まったく知識がない状態からでもループ処理ができるようになります。簡単な例からみていきましょう。

これだけでも「リストに格納されているデータを順番に取り出し、条件に合致しているものだけを新しいリストの要素にする」といったことができます。

まずは「リスト」「辞書」「文字列」「集合」を知れば十分
次に「if文」「for文」を使えるようにする

データ分析に必須のライブラリを学ぶ

テーブルデータを分析するにはpandasライブラリ、可視化するためにmatplotlibライブラリが必須になります。数値計算を効率的におこなうnumpyライブラリも機械学習をするには必須のライブラリとなりますが、必要に迫られるまでは飛ばしてしまってもよいです。

pandasには「Series」と「DataFrame」というデータ構造があります。まず、この概要を学びましょう。これでテーブルデータを扱うことができるようになります。

▶ pandasのデータ構造「Series」と「DataFrame」の基本は次の記事をどうぞ

Python初心者向け：Pandasのデータ構造を基本から解説

Pythonでデータ分析を始める方向けにpandasライブラリを基本から解説します。まずはpandasのデータ構造を学びましょう。Serires、DataFrame、Indexのデータ構造がありますが、今回はSeriresとDataFrameの基本を解説していきます。

データは表形式でみていてもなかなか概要をつかむことができません。そこで可視化する方法も初期の段階で学んでおくのがおすすめです。可視化することで数値を眺めるだけでは見つけられなかった特徴を見つけることができるようになります。ただ、細部にこだわると、なかなか奥が深いので初期の段階では「基本的な描画」ができればよいです。きれいに描けなくてもデータの特徴やパターンがわかればよい、と割り切って次のステップに進む方が結果的に早く身につけることができます。

pandasの「Series」「DataFrame」の概要を学ぶ
matplotlibで基本的な描画ができるようになる

データ分析の流れの確認

いろんな意見がありますが、データ分析は大体次のような流れになります。

Step3-1

目的の確認
Step3-2

データの概要把握
Step3-3

仮説・問いの設定
Step3-4

データの詳細を調査
Step3-5

モデル構築
Step3-6

評価
Step3-7

施策

まずはやみくもにデータと向き合うのではなく、データ分析の目的を明らかにすることが大切です。はじめにこれをしっかり設定しておくことで、迷いが生じたときにこの「目的」にたちかえって、やるべきことの再構築を行います。

次にデータの概要把握です。いきなりデータの詳細を見るのではなく、大体このようなデータなんだな、と理解することで、「次に調べてみたいこと（問いの設定）」や「いまこのような結果になっているのはこれが原因なのではないか？」「こうすれば、こうなるのではないか？」（仮説）を設定しましょう。一番はじめに「目的」を設定していますが、この「問い」や「仮説」は最終的な「目標」を達成するための「小目標」のようなものになります。いくつかの仮説をたてて次の」ステップに取り組むのがよいでしょう。

「問い」「仮説」を設定したらその検証作業をおこないます。これが「データの詳細を調査」の工程です。この工程ではいろんなデータの処理をするため、「前処理」を学ぶ必要があります。

データの詳細調査で実行可能な「施策」を打ち出すことができればモデル構築などのステップは飛ばしてしまって構いません。機械学習のタスクとなる場合には「モデル構築」のステップに進みます。この「モデル構築」のステップには「機械学習としての前処理」が必要となります。このあとに「モデル構築」「評価」をおこないます。これらは、機械学習のフレームワークを学ぶことでセットでみにつけることができます。

データ分析の目的を設定することが何よりも大切となる
データの概要把握のあとに仮説をたて、データの詳細調査へと進み、最終的に実行可能な「施策」を打ち出すようにする

データ分析の各ステップの基本を学ぶ

データの概要を把握する

ここではデータの読み込み方法、読み込んだ後のデータの概要把握を学びます。ここでも網羅的に考えずに、基本パターンのみ押させておけばよいでしょう。実践の時に、基本パターンでは処理できないものが出てきたときに、その部分を調べて解決していく、というのがよいでしょう。

このブログでもデータの読み込み方法についてはいくつかの解説記事があります。

Python初心者向け：csvファイルを読み込んだり書き出したりする手順

Python初心者の方向けに手元にあるcsvファイルのデータを読み込んだり、処理した後csvファイルに書き出す方法を基本から説明します。まずは細かなオプションは使わずに、pandasのread_csv( ) によるデータの読み込みから説明します。

Python初心者向け：データの読み込むときのいろんなパターンを解説

Python初心者の方でも迷わずにデータを読み込むことができるように基本から解説します。手元にあるデータはいつもきれいなデータとは限りません。先頭に不要な行があったり、列項目をすべて使う必要がない場合もあります。このようなデータの取り込みを例を使って説明します。

データを読み込めたらデータの概要を把握します。これもデータの型が欠損値の数、基本統計量などまず把握しておきたい項目にはパターンがあります。この情報を確認する方法をみにつけておきましょう。以下の記事を参考にしてください。

Python初心者向け：読み込んだデータをまず確認する方法をお伝えします

Python初心者の方でもわかるように、まずはデータを確認する方法をお伝えします。単純に読み込んだデータの先頭の数行や末尾の数行、各列のデータ型などを確認する方法を基本からお伝えします。最後に基本統計量をまとめて抽出する方法もご紹介します。

Python初心者向け：誰でもできるデータの概要を把握する方法をご紹介します。

Python初心者でも簡単にデータの概要を把握できるように基本から解説します。分析を始める前にデータの概要を把握することが大切です。やみくもにデータと向き合うのではなく、どのような特徴があるのか概要をつかむことで、データ分析の方針をたてることができます。

Python初心者向け：データの概要を一発で把握する（EDA自動化）

Python初心者の方向けにデータの概要をつかむのに便利な方法を基本から紹介します。非常に強力なツールで、基本的なデータの把握ならこれだけで十分ともいえるでしょう。まずはこの方法でデータの概要をつかんだあと、詳細にデータをみていくとスムーズかと思います。

データの詳細を調査する

データを詳細に見るプロセスでは様々な処理をすることになります。その時々の問い・仮説によって処理は異なるので、これも初めから網羅的に学ぼうとするのはお勧めしません。最近では前処理のみをまとめた書籍も発行されているので、これらを傍らにおいて必要になったタイミングで学ぶとよいでしょう。以下がおすすめです。

リンク

機械学習のフレームワークを学ぶ

機械学習については、フレームワークの前に機械学習を分類したものに目を通して、どのようなものがあるのかを知っておいた方がよいでしょう。そのうえで、それぞれの特徴などを押さえてフレームワークでの実装をどのようにおこなうのかを学びましょう。

機械学習の概要をつかむには「見て試してわかる機械学習のアルゴリズムの仕組み機械学習図鑑」がおすすめとなります。

リンク

実際にモデルを構築する前に、「機械学習用の前処理」が必要となります。こちらも一つ辞書的に書籍を用意しておくとよいでしょう。繰り返しますが、はじめからすべてを学ぼうとしないことが大切です。示されているコードを理解して、動作確認しておく程度で十分です。

リンク

次に「Python 実践データ分析100本ノック」もおすすめです。これは経験豊富な著者が、データ分析の実際の現場で経験したことをもとにノウハウをまとめたものなので大変参考になります。

100本ノックという問題集形式で楽しんで取り組めるかと思います。これらは答えのコードと異なっていてもよいので、自分でコーディングしてみることが大切です。そのうえで、著者はどのようなコードを書いているのかも合わせて学びましょう。

リンク

次に機械学習のフレームワークについてです。機械学習のフレームワークは他にもありますが、まずはscikit-learnを学んでおくとよいでしょう。学習が進んでくると、他のフレームワークを使いたくなってくると思いますので、必要に迫られた時にこれらに取り組むとよいでしょう。scikit-learnを学ぶにあたっては「Pythonではじめる機械学習 scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎」がおすすめの書籍です。

リンク

実践する

実践に関しては、「自分事」として真剣に取り組めるものは挫折しにくいので、いま直面している課題があるのであれば、それに取り組むのが一番です。教科書や問題集的なものをこなしてもあまり身につかないでしょう。学ぶ範囲は限られても、深く濃い学びになる、「自分事」のデータを扱うのが一番です。これからいくつものテーマに取り組めば、学ぶ範囲は広がりますし、これらをこなしていく中で、興味が沸いたものを掘り下げて学ぶとよいでしょう。

いま現在、「自分事」とするデータがないのであれば、KaggleやSignateといったデータ分析コンペティションに取り組むのがよいです。これらは期間も区切られており、サンプルコードが公開されていたりするので、深く学ぶことができます。参加者同士でディスカッションできる掲示板のような機能もあります。楽しみながらデータ分析コンペティションに取り組む工夫が随所にされているので、是非チャレンジしてみましょう。

Kaggleにいきなり挑戦するのが難しいと感じたら、以下の書籍が大変参考になるでしょう。Kaggleの登録の仕方から丁寧に解説してくれています。

リンク