はじめに
モデリングをする場合は、そもそもデータ同士の関係がないものをいくら集めてもうまくいかないことがあります。関係があるデータを選ぶときは相関係数を求めることで関係の強さがわかりますが、これを視覚的に確認することもできます。
サンプルデータの準備
今回は、seabornにあらかじめ用意されているデータセットirisを使いましょう。irisデータセットは3種類のアヤメ(setosa,versicolor,virginica)のがく片(Sepal)、花弁(Petal)の幅および長さを計測したものです。
# ライブラリのインポート
import seaborn as sns
import matplotlib.pyplot as plt
sns.set(font='IPAexGothic')
%matplotlib inline
# データのロード
iris=sns.load_dataset('iris')
iris.head()
相関関係の可視化
各変量間の相関係数をもとめるには、corr()を使います。
iris.corr()
このように相関係数は簡単に求めることができます。
相関係数としては上記のようになりますが、次のように可視化すると、もっと変量間の関係を知ることができます。
sns.pairplot(iris)
まとめ
いかがでしょうか?相関係数の算出結果をsns.heatmapに渡してヒートマップにして可視化する方法もあります。こちらもよかったら試してみてください。
sns.heatmap(iris.corr())
コメント