Python Python初心者向け:標準化/正規化という用語の使い分けについて Python初心者向けにデータの前処理である準化・正規化について基本から解説します。この用語の明確な使い分けが定義されているわけではないようです。ここでは、各項目を説明する前に、このブログの中での意味の使い分けを説明しておきます。 2020.07.05 2021.11.19 Python
Python Python初心者向け:ディレクトリ配下のファイルをすべて読み込む Python初心者でもわかるように、仕事の効率化に活かせる使い方をまとめています。ディレクトリ配下にあるファイルのファイル名やパスを一覧で取得したり、これらのファイルすべてを読み込みたいということもあると思います。これらを手作業でやるのは大変ですね。Pythonで自動化しましょう。 2020.07.05 2021.11.19 Python
Python Python初心者向け:タイムゾーンの処理を基本から解説 Python初心者の方向けにタイムゾーンの扱い方を基本から解説します。サーバーが海外にあって、ログが現地時間になっていることがありますね。タイムゾーンを扱えると、現地時間→日本時間を簡単に変換することができます。サマータイムも考慮してくれるので便利です。 2020.07.04 2021.11.19 Python
Python Python初心者向け:日時の加算・減算の操作を基本から解説 Python初心者向けに日時の加算・減算の操作を基本から解説します。これまで文字列型や数値型の日付データを日付型に変換する方法を学びました。今回は日付型に変換した後の処理をdatetimeクラスとdateutilクラスを使っておこないます。 2020.07.04 2021.11.19 Python
Python Python基礎:get_dummies() はじめに カテゴリデータを利用して機械学習を行う場合は、数値データに置き換える必要がります。但し、単純に数値に置き換えると大小関係を持ってしまうため、正しい学習ができません。ここではワンホットエンコーディングという1または0の値を持つカテゴ... 2020.06.29 2021.11.19 Python
Python Python基礎:map() はじめに 今回はmap()を扱います。普段、apply()の利用で事足りているのですが、一度、map()についても整理しておきましょう。mapにしてできない処理、として辞書を使った変換があります。これは便利なので是非、活用しましょう。 とこ... 2020.06.28 2021.11.19 Python
Python Python基礎:shift()メソッド はじめに 今回はshift()メソッドを扱います。 行や列の差分や変化率を取得するには、shift()を使わなくても、diff()やpct_change()で同じことができます。ただ時系列データを扱うときには、ずらす幅(期間)を指定できるの... 2020.06.28 2021.11.19 Python
Python Python初心者向け:rank( )メソッドを基本から解説 Python初心者でもわかるようにrank( )メソッドを基本から説明していきます。データ分析の過程で順位付けをするシーンで活躍するのがrank( )メソッド。rank( )は並び替えず順位を返すメソッドです。順位を列項目として持たせることもできます。 2020.06.28 2021.11.19 Python
Python Python初心者向け:日付の処理を基本から解説 Python初心者の方向けに日付の処理方法を基本から解説します。日付型の処理にはパターンがあります。まずは文字列型→日付型の変換、次に数値型→日付型の変換を確認しましょう。数値型はyymmddのものか、UNIX時間であるかによって処理方法がことなります。 2020.06.27 2021.11.19 Python
Python Python初心者向け:正規表現を実際の利用例で解説します。 Python初心者でもわかるように、正規表現の実際の利用例をあげて基本から解説していきます。データ分析をするときに実際に出会う処理を例として扱うので、正規表現が実際にどのように使われるかがわかります。例を交えることで他のパターンにも応用することができるようになります。 2020.06.27 2021.11.19 Python
Python Python初心者向け:正規表現を基礎から解説します。 Python初心者でもわかるように正規表現の基礎を基本から解説します。まずは、基本的なパターンである特殊シーケンスを整理して、その後reモジュールの説明をおこないます。 正規表現は難しいですが、データ分析の中のちょっとした加工ならそんなに敷居は高くありません。 2020.06.27 2022.04.16 Python
Python Python基礎:ベン図を描く Python初心者の方向けにベン図の描き方を基本から解説します。ベン図は複数の集合の関係や集合の範囲を視覚的に表す場合に用います。 この記事を読むことで、matplotlib_vennというライブラリを用いて誰でもベン図を描けるようになります。 2020.06.07 2021.11.19 Python
Python Python基礎:transformメソッド はじめに データ分析では、グループ化をして平均値や中央値などの統計量を求めることがあります。これはGroupByオブジェクトのaggメソッドを使います。さらに、グループ化されたデータに対して変形する操作も少なくありません。今回はこの変形処理... 2020.05.23 2021.11.19 Python
Python Python基礎:whereメソッド はじめに データ分析をしている中では、データフレームの要素を参照して、条件に基づいて値を変更したい場面がありますよね。 ある条件のときは、'a'、ある条件のときは'b'とする、のようなイメージです。今回はこれを実現する、whereメソッドを... 2020.05.23 2021.11.19 Python
Python Python基礎:for文とbreak文とcontinue文 はじめに 今回はfor文、break文、continue文を扱います。for文による繰り返し処理は、break文とcontinue文をつかうことで制御フローを変更することができます。まずは、for文による繰り返し処理、その次に制御フローの変... 2020.05.23 2021.11.19 Python
Python Python基礎:クロス集計 はじめに 今回はクロス集計を扱います。クロス集計は目に触れる機会も多く、なじみ深い人も多いのではないでしょうか?情報を整理して捉えやすいので、便利ですよね。EXCELではなじみにある集計方法ですね。今回はPythonでクロス集計する方法をみ... 2020.05.23 2021.11.19 Python
Python Python基礎:JSONファイルの書き出し/読み込み はじめに JSONはデータの受け渡しに広く使われるデータ形式です。機械学習でもWebAPIからデータを取得した場合は、この形式になっていることが多いため、目に触れる機会も多いと思います。今回は、このJSON形式を扱います。 サンプルデータ ... 2020.05.23 2021.11.19 Python
Python Python基礎:関数処理 はじめに 今回はpandasのオブジェクトに対して関数を適用する方法について扱います。シリーズやデータフレームに対して、関数を適用したいことがありますよね。 pandasのシリーズとデータフレームはNumpyの関数を直接適用することが鹿野で... 2020.05.23 2021.11.19 Python
Python Python初心者向け:縦持ちデータと横持ちデータの変換 Python初心者向けに、「横持ち(wide)」と「縦持ち(long)」の変換を基本から解説します。まずは横持ち・縦持ちデータとはどういうものかを確認して、お互いの変換の 仕方を確認します。データ形式を理解したうえでデータ変形ができるようになりましょう。 2020.05.17 2021.11.19 Python
Python Python基礎:重複データの取り扱い はじめに はじめて扱うデータや自分の複数のテーブルを組み合わせた場合は、重複データの確認をおこなうようにしましょう。重複データが生じる要因は様々でです。単純にデータが重複している場合もあれば、人的ミスによる場合もあります。pandasのシリ... 2020.05.17 2021.11.19 Python