データ分析

Python

Python基礎:cut( ), qcut( )

はじめに 今回はビン分割の方法を扱います。ビン分割は連続データを区切ってカテゴリ分けする操作です。年齢を年代別にしたり、体重を階級別にしたりするような操作となります。pandasにcut( ),qcut( )が用意されています。この違い・使...
Python

Python基礎:osモジュールとglobモジュール

はじめに 今回はPythonライブラリのosモジュールとglobモジュールを扱います。osモジュールはosに依存する機能を利用するためのものです。globは指定したパターンにマッチするファイルパスを取得することができます。これらを組み合わせ...
Python

Python基礎:cumsum( )

はじめに 今回は久しぶりにPythonに戻って、pandasのcumsum( ) メソッドを扱います。cumsum( )は累積和を計算してくれます。毎日の売上データがあるときに、累積の売上を計算して、計画に対してどのくらい進捗しているのか、...
EXCEL

EXCELでテーブル間のリレーションシップを設定する方法

EXCELでテーブル間のリレーションシップを設定する方法を基本から解説します。この設定をしておくと、テーブル間の関連データを1つのレポートに表示することができます。これまでVLOOKUPなどで関連付けていたデータを、より簡単に扱うことができます。
EXCEL

EXCEL:処理を定義して自動で処理をする方法を解説します

EXCELで処理を自動化する方法を基本から丁寧に解説します。毎月データを取得して、毎月同じ集計をするのであれば、自動化することで時間の節約するだけでなく、ミスを防ぐこともできます。設定は簡単なので、この記事を読めば誰でも『自動化』することができます。
EXCEL

EXCEL:データ取り込み時に前処理を済ませる

EXCELにデータを取り込むときに、あらかじめ定義した前処理を自動化できます。取り込み時に文字コードやデータの型を指定したり、先頭の数行はスキップするなどの設定方法について基本から解説します。更新されたデータに毎回同じ処理をしているなら是非参考にしてください。
EXCEL

EXCEL:データ取込み時に文字コードや型を指定する方法を解説

EXCELにデータを取り込むときに、文字コードの指定や型の指定、さらには、様々な前処理を加えることができます。EXCELに不慣れな方でもわかるように基本から解説します。この投稿を読めば誰でも、データを取り込んで簡単な処理を自動化をすることができます。
Python

Python初心者向け:文字列から括弧で囲まれた部分を抽出する

Python初心者でもわかるように、実際に正規表現を使って文字列の抽出をおこないます。これは実際の仕事の場で必要となった作業で、「」や『』で囲まれた部分をデータとして抽出するしょりとなります。このようなときに、正規表現が使えると簡単に処理をすることができます。
Python

Python基礎:rolling( )を使って移動平均を求める

はじめに 今回も事例列データを扱う際によく利用する処理をみていきます。rolling( )メソッドです。 rolling関数は窓関数と呼ばれるものを指定した要素の数の幅だけ適用する関数となっており、窓関数を適用することでそれぞれの要素に重み...
Python

Python基礎:shift( )メソッド

はじめに 今回も時系列データを処理する際によく利用するものを見ていきましょう。pandasのshift( ) メソッドとrolling( )メソッドです。shift( )はデータをズラすことができます。通常、diff( )メソッドがあれば差...
Python

Python基礎:diff(), pct_change()

はじめに 今回はdiff( ), pct_change( )を扱いましょう。これらは時系列データの処理をするときによく使うpandasのメソッドです。diff( )は行・列の差分をpct_change( )は行・列の変化率を簡単に算出するこ...
EXCEL

EXCEL:近似曲線の選び方を基本から解説します

EXCELで近似曲線を描く場合の選び方を基本から解説します。手元にあるデータから傾向を把握して、今後どのようになるかを予測したくなることがありますね。今回は近似曲線を描く時の注意をまとめました。これを読めば、どの近似曲線選べばよいかがわかるようになります。
Python

Python基礎:enumerateとzip

はじめに 今回は、forループでリストなどの要素を取り出すときに便利なenumerate( )とzip( )について扱います。enuerate( )は要素と同時にインデックスをも取り出したいとき、zip( )は複数のリストから同時に要素を取...
Python

Python初心者向け:add_subplot/subplot/subplotsの違いを整理

Python初心者の方向けに、matplotlibで描画する時のメソッドであるadd_subplot( ), subplot( ), subplots( )について整理しましょう。これらは名称も似ていることから混乱しやすいですが、意味が分かれば大丈夫です。
Python

経過時間の取り扱いを基本から解説(timedelta型)

Python初心者の方向けに、ある基準の日時からの経過時間を扱う方法を基本から解説します。経過時間を扱う場合は、datetime型ではなくtimedelta型のtotal_seconds()が有効です。時系列データははじめは扱いにくいですが、慣れてしまえば簡単です。
Python

Python基礎:データフレームの結合

はじめに このブログでも、これまで何度もpandas.mergeを使ってきました。いつも決まった操作ばかりだったので不便はなかったのですが、他にもできることあるのでは?とあらためてpandas.mergeをとりあげることにしました。 結合の...
その他

Python基礎:データ分析プロセス

はじめに 今回はデータ分析のフレームワークについて扱います。データ分析を実施するためには、どのような手順でどのような処理をおこなえばよいのか。ビジネス課題からスタートするフレームワークであるCRISP-DMについて確認していきましょう。 C...
Python

Python基礎:性能評価指標と混同行列

はじめに 今回は分類モデルの性能評価指標について考えてみます。性能評価指標は複数あり、設定した課題によってどの指標を重視するかは異なります。この性能評価の各指標を簡単に確認することができる、混同行列もご紹介します。 性能評価指標 性能評価指...
Python

Python初心者向け:k-分割交差検証を基本から解説します

Python初心者向けにk-分割交差検証を基本から解説します。データをk個に分割してn個を訓練用にk-n個をテスト用に使うということを、分けられたn個のデータが必ず1回はテスト用に使われるように繰り返します。過学習を防ぎ汎化性能を得ることができます。
Python

Python基礎:Webスクレイピング②

はじめに 今回も、前回に引き続きスクレイピングを扱います。前回同様に「requests」と「BeautifulSoup」というライブラリを使います。今回は、取得したHTMLを解析する際の条件指定をselect( )を使ってやってみましょう。...