2020-08

Python

Python初心者向け:ピボットテーブルの使い方を基本から解説

Python初心者の方向けにpandasのpivot_tableメソッドを使ったピボットテーブルの使い方を基本から解説します。EXCELで集計するときにおなじみのピボットテーブルをPythonでも屋てみましょう。コツをつかめば、誰でも簡単に扱うことができます。
Python

Python基礎:住所データから都道府県を抽出する

Python初心者でもわかるように、住所データから都道府県を抽出する方法を基本から解説します。取得したデータはいつもきれいなデータとは限りません。住所データも都道府県が分離されているとは限りません。都道府県のみを取得する方法を順を追って説明します。
Python

Python初心者向け:アンダーサンプリングを基本から解説

Python初心者の方向けに不均衡データの処理について基本から解説します。不均衡データを均衡になるように処理する方法には、「アンダーサンプリング」と「オーバーサンプリング」があります。アンダーサンプリングは不均衡データで多数のクラスのデータを減らす方法です。
Python

Python初心者向け:データのサンプリングについて基本から解説

Python初心者の方向けにサンプリングについて基本から解説します。単純に手元にあるデータから一部を抜き出す方法を考えます。無作為に抽出する「単純無作為抽出」と母集団をいくつかの部分母集団にわけて各部分母集団から標本を抽出する、「層化抽出」を説明します。
Python

Python初心者向け:四分位数/標準偏差を用いた外れ値の除外

Python初心者向けに四分位数や標準偏差を用いて外れ値を除外する方法を基本から解説します。外れ値とは他の値から大きく外れた値です。外れ値の中でも外れ値となった理由があるものを異常値といいます。外れ値を除外するは、通常、「異常値」を除外します。
Python

Python基礎:queryで変数を使う場合

はじめに 今回は小ネタです。記事にするほどでもないのですが、せっかくなのでメモを残しておきます。query()メソッドの中で変数を使う方法です。query()メソッドの中では、普通に変数を参照しようとするとエラーになります。簡単な内容で...
Python

Python基礎:曜日の取り扱い

はじめに 今回はPythonで曜日を取り扱う方法を紹介します。データを集計しているときに、曜日ごとに集計して比較したくなることがありますよね。Webページのアクセス状況なども、妖美ごとに特徴があることが多いですよね。日付から簡単に曜日を...
Python

Python基礎:リスト内包表記

はじめに 今回はリスト内包表記を扱います。for文が使えればリスト内包表記という便利な気泡を使うことができます。リスト内包表記により、既存のリストからあらたなリストの作成を簡潔におこなうことができます。また、処理速度もはやいため是非とも...
Python

Python初心者向け:sklearnでダミー変数の追加と二値化

Python初心者の方向けに、sklearnを用いた「ダミー変数の追加」と「二値化」を基本から解説します。ダミー変数の追加はadd_dummy_featureを使って作成します。二値化はbinarizeを用いて、指定した閾値より大きいか小さいかで二値化します。
Python

Python初心者向け:対数変換について基礎から解説

Python初心者向けに対数変換を基本から説明します。Pythonで対数変換すること自体は簡単なのですが、そもそも対数変換する意味ってなんでしょう?まずは対数変換とは何かを整理したあと、pythonで対数変換をどのようにやるかを確認することにしましょう。
Python

Python基礎:テキストデータのカテゴリ化

はじめに 今回はテキストデータのカテゴリ化を扱います。たとえば、都道府県ごとにコードを割り振りたいなど、テキストデータをカテゴリ化する場面は意外に多いですよね。テキストデータのカテゴリ化は、一度map()を紹介した投稿の中で扱っています...
Python

Python基礎:デバッグ

はじめに 今回はデバッグについて触れます。これまでPythonで遭遇するエラーに関しては、次の記事で扱っています。合わせて参照してください 前にエラーを扱った投稿では10個のエラーを紹介しましたが、今回はエラーを大きく...
Python

Python基礎:関数定義

はじめに 今回は関数定義を扱います。データ分析をしているときにも、繰り返しおこなう処理などは関数を定義しておいた方が楽なことが多いですよね。これまでの投稿でも、普通に関数を定義して使っていましたが、一度、まとめておきましょう(簡単です)...
Python

Python初心者向け:関数を使って数値データをカテゴリ化する

Python初心者の方向けに関数を使って数値データをカテゴリ化する方法を基本から解説します。pandasには、cut( ) やqcut( )という数値データをカテゴリ化するためのメソッドがあらかじめ用意されています。今回はこのメソッドの使い方を基本から解説します。
Python

Python初心者向け:stack()/unstack()で行と列を自由に入れ替える

Python初心者の方向けに行と列を自由に入れ替える方法を基本から解説します。stackは「積む」という意味なので、stack/unstackは積んだり崩したりするということです。行方向に「積む」のか「崩す」のかと考えるとわかりやすいですね。