はじめに
これまでデータの概要を把握する方法をいくつか見てきました。まずは基本統計量などを算出する前に、まずは欠損値の処理をおこないます。
欠損値の処理が終わったら、基本統計量などをみてみるとよいでしょう。但し、統計量だけでは1つの軸としてみただけで分布まではわかりません。そこで可視化をおこなうとよいでしょう。分布だけでなく、可視化することでみえてくる多くのことがあります。データ分析の初めのプロセスで可視化をしておくとデータの把握に役立つでしょう。
サンプルデータの準備
今回はseabornに準備されている学習用のデータセットであるtipsデータセットを使うことにしましょう。
import seaborn as sns
tips=sns.load_dataset('tips')
tips
matplotlibで可視化する
可視化といってもいろんなグラフがあります。一つ一つみてきましょう。ここでは次のグラフを扱うことにしましょう。
- 散布図
- 折れ線グラフ
- ヒストグラム
- 棒グラフ
- 箱ひげ図
基本文法
matplotlibでグラフの描くときの基本をお伝えします。まずはmatplotlibのインポートと、jupyter notebookでセルの下にグラフを出力するための記述は以下のようになります。
import matplotlib.pyplot as plt
%matplotlib inline
次にグラフを描く際の基本形は、以下となります。
plt.(グラフの種類を指定)(データ1,データ2)
グラフの種類は、折れ線グラフならばplot、散布図であればscatterのように決められたものを指定します。次に、データ1,データ2の箇所は、それぞれのグラフが必要とするデータごとに異なります。折れ線グラフや散布図であればX軸、Y軸それぞれのデータが必要になります。
一方、ヒストグラムであれば、データ1のみで構いません。たとえば、先ほど用意したサンプルデータで散布図を描いてみましょう。
# 散布図を描く
plt.scatter(tips['total_bill'],tips['tip'])
グラフ周りの書式を何も設定していないので、淡白なグラフですが散布図を描くことができました。では、同じように折れ線グラフを描いてみましょう。
# 折れ線グラフを描く
plt.plot(tips.index,tips['total_bill'])
このように簡単にグラフを描くことができます。折れ線グラフの場合は、実は(データ1)の部分を省略すると、自動的にデータフレームのインデックスが設定されます。そのため、次のようにしても同じ結果が得られます。
# 折れ線グラフを描く
plt.plot(tips['total_bill'])
matplotlibではグラフの種類の指定とデータの指定だけなので簡単ですね。今回はすべてのグラフを描くことはしませんが、グラフ種類の指定を整理しておきましょう。
グラフの種類 | グラフの指定 |
散布図 | scatter |
折れ線グラフ | plot |
ヒストグラム | hist |
棒グラフ | bar |
箱ひげ図 | boxplot |
まとめ
これで簡単なグラフは描けるようになりました。思ったより簡単でしたね。ただ、今回の内容だけでは、非常に淡白なグラフですよね。グラフにはタイトルや軸ラベルなど、必要な要素がいくつもあります。次回はその辺の設定について扱います。
コメント