Contents
データを分析するには、まずデータを読み込む必要がある。Pythonでデータを扱うには、pandasを利用するのが便利だと思うので、これを前提としたデータの読み込みをまとめておく。以下の例では、pandasを「import pandas as pd」を実行して、既にインポートしているものとします。
csvデータのインポート
まずは、基本形です。プログラム言語は何でもそうだと思いますが、基本の形があって、そこにオプションを加えて記述すると、ちょっと高度な設定をおこなうことができます。
基本形 pd.read_csv(“ファイル名.csv”)
これで”ファイル名.csv”のファイルを読み込むことができます。read_csvはデフォルトでは1行目をheaderとして認識します。ヘッダがない場合はheader=Falseというオプションを追記します。
pd.read_csv(“ファイル名.csv”,header=False)
ファイルにあるものとは別に、ヘッダに名前を付けたい場合には、namesオプションを使います。namesに列の数だけヘッダ名を用意して、タプルで指定します。
pd.read_csv(“ファイル名.csv”,names=(“a”,”b”,”c”))
read_csvだけでもオプションはたくさんあるのですが、よく使うのは、あと文字コードの指定です。提供されるデータによってこれらを指定しないと文字化けを起こしてしまうことがあります。encodingオプションを使って、”utf-8″,”shift_jis”,”euc_jp”などを指定します。
pd.read_csv(“ファイル名.csv”,encoding=”utf-8″)
csvデータのエクスポート
こちらもまずは基本形から確認します。
基本形 df.to_csv(“ファイル名.csv”)
デフォルトでindexがついた状態で出力される。行名を保存しない場合は、indexオプションを指定(Tru/False)するとよい。
df.to_csv(“ファイル名.csv”,index=False)
また、区切り文字を指定する場合はsepオプション、データ読み込み時にもあったように、文字コードを指定する場合はencodingオプションを使います。
df.to_csv(“ファイル名.csv”,sep=”,”,encoding=”utf-8″)
データの読み込み/書き込みの基本はこれで終わりです。
▶ さらにオプションの指定によりいろんな読み込み方ができます。以下の記事を参考にしてください。
コメント