Python Python基礎:diff(), pct_change() はじめに 今回はdiff( ), pct_change( )を扱いましょう。これらは時系列データの処理をするときによく使うpandasのメソッドです。diff( )は行・列の差分をpct_change( )は行・列の変化率を簡単に算出するこ... 2020.10.17 2021.11.19 Python
Python Python基礎:enumerateとzip はじめに 今回は、forループでリストなどの要素を取り出すときに便利なenumerate( )とzip( )について扱います。enuerate( )は要素と同時にインデックスをも取り出したいとき、zip( )は複数のリストから同時に要素を取... 2020.10.05 2021.11.19 Python
Python Python初心者向け:add_subplot/subplot/subplotsの違いを整理 Python初心者の方向けに、matplotlibで描画する時のメソッドであるadd_subplot( ), subplot( ), subplots( )について整理しましょう。これらは名称も似ていることから混乱しやすいですが、意味が分かれば大丈夫です。 2020.10.04 2021.11.19 Python
Python 経過時間の取り扱いを基本から解説(timedelta型) Python初心者の方向けに、ある基準の日時からの経過時間を扱う方法を基本から解説します。経過時間を扱う場合は、datetime型ではなくtimedelta型のtotal_seconds()が有効です。時系列データははじめは扱いにくいですが、慣れてしまえば簡単です。 2020.10.04 2021.11.19 Python
Python Python基礎:データフレームの結合 はじめに このブログでも、これまで何度もpandas.mergeを使ってきました。いつも決まった操作ばかりだったので不便はなかったのですが、他にもできることあるのでは?とあらためてpandas.mergeをとりあげることにしました。 結合の... 2020.10.03 2021.11.19 Python
Python Python基礎:性能評価指標と混同行列 はじめに 今回は分類モデルの性能評価指標について考えてみます。性能評価指標は複数あり、設定した課題によってどの指標を重視するかは異なります。この性能評価の各指標を簡単に確認することができる、混同行列もご紹介します。 性能評価指標 性能評価指... 2020.09.27 2021.11.19 Python
Python Python初心者向け:k-分割交差検証を基本から解説します Python初心者向けにk-分割交差検証を基本から解説します。データをk個に分割してn個を訓練用にk-n個をテスト用に使うということを、分けられたn個のデータが必ず1回はテスト用に使われるように繰り返します。過学習を防ぎ汎化性能を得ることができます。 2020.09.26 2022.01.22 Python
Python Python基礎:Webスクレイピング② はじめに 今回も、前回に引き続きスクレイピングを扱います。前回同様に「requests」と「BeautifulSoup」というライブラリを使います。今回は、取得したHTMLを解析する際の条件指定をselect( )を使ってやってみましょう。... 2020.09.20 2021.11.19 Python
Python Python基礎:Webスクレイピング① はじめに 今回はスクレイピングを扱います。「requests」というwebページを取得するためのhttpライブラリと、「BeautifulSoup」というHTMLから情報を抽出するライブラリを使います。requestsでURLからHTMLを... 2020.09.20 2021.11.19 Python
Python Python初心者向け:データの概要を一発で把握する(EDA自動化) Python初心者の方向けにデータの概要をつかむのに便利な方法を基本から紹介します。非常に強力なツールで、基本的なデータの把握ならこれだけで十分ともいえるでしょう。まずはこの方法でデータの概要をつかんだあと、詳細にデータをみていくとスムーズかと思います。 2020.09.13 2021.11.19 Python
Python Python基礎:例外処理 はじめに 今回は例外処理を扱います。例外処理とは、エラーが起きた時の処理をあらかじめ定めておくことです。文法的に正しいコードを書いていても、実行時にエラーが起こることがあります。実行時のエラーを検出して、処理するにはtry, exceptを... 2020.09.13 2021.11.19 Python
Python Python基礎:break文・continue文・pass文 はじめに 繰り返し処理の中では条件によって、処理を変えたいことがありますね。今回はfor文やwhile文のような繰り返し処理の中で、ある条件がきたタイミングで処理をやめるbreak文や処理をスキップするbcontinue文について扱います。... 2020.09.12 2021.11.19 Python
Python Python初心者向け:loc,ilocの使い方を基本から解説 Python初心者でもわかるようにloc, ilocの使い方を説明していきます。locもilocも行、列を指定してデータを取り出します。両者の違いはlocは行を番号で指定し、ilocは行をindexで指定します。これを押さえておけばすぐに使いこなせるようになります。 2020.09.07 2022.09.17 Python
Python Python基礎:groupbyとagg はじめに 今回はgroupbyの使い方を整理します。このブログでも何度かグループ化を扱ってきましたが、いくつかの使い方や表記方法があるので整理しておきましょう。グループ化はデータ分析するうえでも必須となるので、抑えておきましょう。 サンプル... 2020.09.06 2021.11.19 Python
Python Python基礎:文字列が数字であるかを判別する はじめに 今回は、読み込んだデータが「数値」であるかを判定するisdigit()メソッドを扱います。日付の処理をするときに、元のデータが文字列型数値型によって処理が異なりましたね。その前段階として数値であるかを判定して処理を分けることがあり... 2020.09.06 2021.11.19 Python
Python Python初心者向け:ピボットテーブルの使い方を基本から解説 Python初心者の方向けにpandasのpivot_tableメソッドを使ったピボットテーブルの使い方を基本から解説します。EXCELで集計するときにおなじみのピボットテーブルをPythonでも屋てみましょう。コツをつかめば、誰でも簡単に扱うことができます。 2020.08.24 2021.11.19 Python
Python Python基礎:住所データから都道府県を抽出する Python初心者でもわかるように、住所データから都道府県を抽出する方法を基本から解説します。取得したデータはいつもきれいなデータとは限りません。住所データも都道府県が分離されているとは限りません。都道府県のみを取得する方法を順を追って説明します。 2020.08.15 2021.11.19 Python
Python Python初心者向け:アンダーサンプリングを基本から解説 Python初心者の方向けに不均衡データの処理について基本から解説します。不均衡データを均衡になるように処理する方法には、「アンダーサンプリング」と「オーバーサンプリング」があります。アンダーサンプリングは不均衡データで多数のクラスのデータを減らす方法です。 2020.08.15 2021.11.19 Python
Python Python初心者向け:データのサンプリングについて基本から解説 Python初心者の方向けにサンプリングについて基本から解説します。単純に手元にあるデータから一部を抜き出す方法を考えます。無作為に抽出する「単純無作為抽出」と母集団をいくつかの部分母集団にわけて各部分母集団から標本を抽出する、「層化抽出」を説明します。 2020.08.13 2021.11.19 Python
Python Python初心者向け:四分位数/標準偏差を用いた外れ値の除外 Python初心者向けに四分位数や標準偏差を用いて外れ値を除外する方法を基本から解説します。外れ値とは他の値から大きく外れた値です。外れ値の中でも外れ値となった理由があるものを異常値といいます。外れ値を除外するは、通常、「異常値」を除外します。 2020.08.12 2021.11.19 Python