2020-05

Python

Python基礎:transformメソッド

はじめに データ分析では、グループ化をして平均値や中央値などの統計量を求めることがあります。これはGroupByオブジェクトのaggメソッドを使います。さらに、グループ化されたデータに対して変形する操作も少なくありません。今回はこの変形...
Python

Python基礎:whereメソッド

はじめに データ分析をしている中では、データフレームの要素を参照して、条件に基づいて値を変更したい場面がありますよね。 ある条件のときは、'a'、ある条件のときは'b'とする、のようなイメージです。今回はこれを実現する、whereメソッ...
Python

Python基礎:for文とbreak文とcontinue文

はじめに 今回はfor文、break文、continue文を扱います。for文による繰り返し処理は、break文とcontinue文をつかうことで制御フローを変更することができます。まずは、for文による繰り返し処理、その次に制御フロー...
Python

Python基礎:クロス集計

はじめに 今回はクロス集計を扱います。クロス集計は目に触れる機会も多く、なじみ深い人も多いのではないでしょうか?情報を整理して捉えやすいので、便利ですよね。EXCELではなじみにある集計方法ですね。今回はPythonでクロス集計する方法...
Python

Python基礎:JSONファイルの書き出し/読み込み

はじめに JSONはデータの受け渡しに広く使われるデータ形式です。機械学習でもWebAPIからデータを取得した場合は、この形式になっていることが多いため、目に触れる機会も多いと思います。今回は、このJSON形式を扱います。 サンプルデ...
Python

Python基礎:関数処理

はじめに 今回はpandasのオブジェクトに対して関数を適用する方法について扱います。シリーズやデータフレームに対して、関数を適用したいことがありますよね。 pandasのシリーズとデータフレームはNumpyの関数を直接適用するこ...
Python

Python初心者向け:縦持ちデータと横持ちデータの変換

Python初心者向けに、「横持ち(wide)」と「縦持ち(long)」の変換を基本から解説します。まずは横持ち・縦持ちデータとはどういうものかを確認して、お互いの変換の 仕方を確認します。データ形式を理解したうえでデータ変形ができるようになりましょう。
Python

Python基礎:重複データの取り扱い

はじめに はじめて扱うデータや自分の複数のテーブルを組み合わせた場合は、重複データの確認をおこなうようにしましょう。重複データが生じる要因は様々でです。単純にデータが重複している場合もあれば、人的ミスによる場合もあります。pandasの...
Python

Python基礎:交差検証について

はじめに 前回はLightGBMを使用するときの手順を学びました。 このとき、Cross Validation(交差検証)に関しては、詳しい説明は省いたので、今回あらたに取り上げたいと思います。Scikitlearnを...
Python

Python初心者向け:LightGBMを実装する際の手順

Python初心者の方向けにLightGBMについて、基本的な部分からまとめます。データ量が多くても比較的高速で、精度もでるアルゴリズムなので、ぜひ使えるようになりましょう。パラメータが多いですが、できるだけわかりやすくまとめていきます。
Python

Python初心者向け:LightGBMを実装を基本から解説

Python初心者の方向けにLightGBMの実装を基本から解説します。irisとTitanicというい慣れた2つのデータセットでまずはLightGBMの実装に慣れてしまいましょう。この記事で誰でもLightGBMを試すことができます。
Python

Python初心者向け:決定木とランダムフォレストを可視化する

Python初心者の方向けに、ツリー系のアルゴリズムである決定木とランダムフォレストの可視化の方法を基本から解説します。サンプルデータで、まず決定木で分類をおこない次にランダムフォレストで分類して比較します。各特徴量の重要度の可視化もできるようになります。
Python

東京都のコロナウィルス感染者数について~データを眺める~

はじめに 今回も東京都のコロナウィルス感染者数のデータを扱うことにしましょう。今回はpandasを使うことにします。pandas_profilingを使ってデータを眺めて、次にいくつかの描画をすることにします。 データの取得の仕方...
Python

東京都のコロナウィルスの感染者数について~移動平均をプロット~

はじめに 前回に引き続き、東京都のコロナウィルスの感染者数のデータを扱います。今回もpandasを使わずに扱う場合と、pandasを使って扱う場合の2通りでやってみましょう。前回は日々の新規感染者数の変化をプロットしましたが、これでは傾...
Python

東京都のコロナウィルス感染者数について

はじめに 今回は実際に東京都のWebページで公開されている、コロナウィルス感染者数の推移を可視化してみます。いままでpandasを使っていろんな処理をしてきましたが、今回は、「pandasを使わずに処理」と「pandasを使って処理」の...
Python

データ分析基礎:決定木

はじめに 今回は「決定木」を扱います。 決定木は結果の可読性が高いため非常に有用です。 機械学習に対する理解があまり得られていない職場でも、データを活用した施策の合意が得られやすいため、数あるアルゴリズムの中で決定木が選ばれることもあり...
Python

Python初心者向け:データの可視化の方法を基本からまとめました

データ分析の初心者にもわかるように、データの可視化の方法を基本から丁寧に解説します。この記事を読むことで、グラフを描く基本的な方法が理解でき、多くのグラフを描くことができ量になります。matplotlibとseabornライブラリを使った可視化を解説します。
Web

Python初心者向け:djangoフレームワークの使い方のまとめ

Python初心者向けにdjangoでWebアプリケーションを作る方法を基本から解説しています。『djangoフレームワークの使い方』をまとめました。初めての方でもdjangoフレームワークの使い方の概要がわかりWebアプリケーションを作ることができます。