データ分析の初学者向け参考図書を解説

この記事はこんな方におススメです
  • データ分析をはじめたばかりでどのような学習が必要なのか知りたい方
  • データ分析の学習に参考となる書籍を探している方
  • 初心者向けに書かれている本を探している方

前処理

Pythonの基本的な文法を学んだあとは、前処理の方法を学ぶとよいです。いつも思い通りの形でデータが得られるとは限りません。データ分析をするには自分で前処理をできるようにならなければいけません。先人が経験した有用なTipsがまとめられている、「前処理大全」を傍らにおいておくとよいでしょう。

機械学習アルゴリズム

機械学習については、フレームワークを学ぶ前に、機械学習にはどのようなものがあるのかを整理しておく方がよいでしょう。どのようなアルゴリズムがあるか、それぞれの特徴はどのようなものを知ったうえで使い分けていく必要があります。

機械学習の概要をつかむには「見て試してわかる機械学習のアルゴリズムの仕組み 機械学習図鑑」がおすすめです。

実践的な経験を積むことができるもの

実際にデータ分析に取り掛かる前に、少し実践的な内容で演習を積みたいのであれば、「Python実践データ分析100本ノック」がおすすめです。これは経験豊富な著者が、データbン隻の実際の現場で経験したことをもとにノウハウをまとめたものなので大変参考になります。

100本ノックという問題集形式で楽しんで取り組めるかと思います。これは答えのコードとは異なっていてもよいので、自分でコーディングしてみることがが大切です。そのうえで、著者はどのようなコードを書いているのかも合わせて学びましょう。

機械学習のための前処理

実際にモデルを構築する前には、「機械学習用の前処理」が必要となります。データ分析の成否は、データを前処理して、どのように特徴量を作成するかにかかっています。これも一つ辞書的に書籍を用意しておくとよいでしょう。はじめからすべてを学ぼうとしないことが大切です。はじめは示されているコードを理解して動作確認しておく程度で十分です。いざ、データ分析をするときに、このような手法があったな、という引き出しを増やしましょう。

機械学習のフレームワーク

次に機械学習のフレームワークについてです。機械学習のフレームワークはたくさんありあmすが、まずはscikit-learnを学んでおくとよいでしょう。学習が進んでくると、他のフレームワークを使いたくなってくると思いますので、必要に迫られた時にこれらに取り組むとよいでしょう。scikit-learnを学ぶにあたっては「Pythonではじめる機械学習scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎」がおすすめ書籍です。

実践する

実践に関しては、「自分事」として真剣に取り組めるものは挫折しにくいので、いま直面している課題があるのであれば、それに取り組むのが一番です。教科書や問題集的なものをこなしてもあまり身につかないでしょう。学ぶ範囲は限られても、深く濃い学びになる、「自分事」のデータを扱うのが一番です。これからいくつものテーマに取り組めば、学ぶ範囲は広がりますし、これらをこなしていく中で、興味が沸いたものを掘り下げて学ぶとよいでしょう。

いま現在、「自分事」とするデータがないのであれば、KaggleやSignateといったデータ分析コンペティションに取り組むのがよいです。これらは期間も区切られており、サンプルコードが公開されていたりするので、深く学ぶことができます。参加者同士でディスカッションできる掲示板のような機能もあります。楽しみながらデータ分析コンペティションに取り組む工夫が随所にされているので、是非チャレンジしてみましょう。

Kaggleにいきなり挑戦するのが難しいと感じたら、以下の書籍が大変参考になるでしょう。Kaggleの登録の仕方から丁寧に解説してくれています。

タイトルとURLをコピーしました