▶ まずcsvデータを読みこんだり書き出したりする方法がわからなければ以下の記事を参考にしてください。
はじめに
「データはあるから何か面白いことを発見して」「データがあるから何か始めよう」はよいアプローチではない。分析を始める前にまずは、ビジネス課題を特定してから始めることが正しく効率的なプロセスとなる。
データが用意できたら、データの概要を確認しよう
基本統計量:describe()
まずは基本統計量です。describe()は数値データに対する各種統計量を計算してくれます。これだけで各columnのデータ数、平均、分散などの統計量がわかります。
one | two | |
---|---|---|
count | 3.000000 | 2.000000 |
mean | 3.083333 | -2.900000 |
std | 3.493685 | 2.262742 |
min | 0.750000 | -4.500000 |
25% | NaN | NaN |
50% | NaN | NaN |
75% | NaN | NaN |
max | 7.100000 | -1.300000 |
数値データでない場合は、describe()メソッドは別の要約統計量を返します。
カウント:value_counts()
pandasでデータの出現頻度を確認するには、Seriesではvalue_countsを使います。DataFrameに使う際には、列の指定も同時におこない、次のような形となる。
df.列の指定.describe()
これで要素のうち、かぶらないものの数を数えることができる。
ダミー変数の作成:get_dummies()
データにカテゴリ変数が入っている場合にダミー変数化したいことがあります。(意図しない意味をデータに与えてしまわないようにカテゴリ変数を数値に変換して対処します。)
pd.get_dummies(df[ “ダミー変数化したい列” ])で、”元の列名_値”というダミー変数列が生成される。このダミー変数名の値であるとおきは、”1″がたち、そうでないときには”0″となります。
ソート:sort_values()
df.sort_values(“列名”,ascending=False)という形で使います。数値でのソートにも文字でのソートにも使えます。但し、文字でのソートが意図していた通りとならない場合は、並び替えたい列で意図した並び順のリストを作り、
df[“並び替えのキー列”]=pd.Categorical(df[“並び替えのキー列”],並び替えを指定したリスト)
のようにすると、意図したとおりに並べることができます。
groupby
同じような操作を何度もするのであれば、groupbyの操作を変数に格納したほうがよい。
df_groupby=df.groupby(“グループ化したい列”,as_index=False)
※as_index=Falseを指定すると、indexとして扱うのをやめる
まとめ
いかがでしたか?知っていることばっかりだったって方も多かったかもしれませんね。基本的なことだけを扱ってみました。今後、さらに記事を充実させていくようにします。
▶ データの概要を把握したら、各項目の相関関係を見るのも大切です。
コメント