Python初心者向け：誰でもできるデータの概要を把握する方法をご紹介します。

▶ まずcsvデータを読みこんだり書き出したりする方法がわからなければ以下の記事を参考にしてください。

Python初心者の方向けに手元にあるcsvファイルのデータを読み込んだり、処理した後csvファイルに書き出す方法を基本から説明します。まずは細かなオプションは使わずに、pandasのread_csv( ) によるデータの読み込みから説明します。

Python初心者向け：データの読み込むときのいろんなパターンを解説

Python初心者の方でも迷わずにデータを読み込むことができるように基本から解説します。手元にあるデータはいつもきれいなデータとは限りません。先頭に不要な行があったり、列項目をすべて使う必要がない場合もあります。このようなデータの取り込みを例を使って説明します。

はじめに

「データはあるから何か面白いことを発見して」「データがあるから何か始めよう」はよいアプローチではない。分析を始める前にまずは、ビジネス課題を特定してから始めることが正しく効率的なプロセスとなる。

データが用意できたら、データの概要を確認しよう

基本統計量：describe()

まずは基本統計量です。describe()は数値データに対する各種統計量を計算してくれます。これだけで各columnのデータ数、平均、分散などの統計量がわかります。

	one	two
count	3.000000	2.000000
mean	3.083333	-2.900000
std	3.493685	2.262742
min	0.750000	-4.500000
25%	NaN	NaN
50%	NaN	NaN
75%	NaN	NaN
max	7.100000	-1.300000

数値データでない場合は、describe()メソッドは別の要約統計量を返します。

カウント：value_counts()

pandasでデータの出現頻度を確認するには、Seriesではvalue_countsを使います。DataFrameに使う際には、列の指定も同時におこない、次のような形となる。

df.列の指定.describe()

これで要素のうち、かぶらないものの数を数えることができる。

ダミー変数の作成：get_dummies()

データにカテゴリ変数が入っている場合にダミー変数化したいことがあります。(意図しない意味をデータに与えてしまわないようにカテゴリ変数を数値に変換して対処します。)
pd.get_dummies(df[ “ダミー変数化したい列” ])で、”元の列名_値”というダミー変数列が生成される。このダミー変数名の値であるとおきは、”1″がたち、そうでないときには”0″となります。