Python

統計学:初学者向けに記述統計(代表値と散布度)を基本から解説します

スポンサーリンク

 

この記事は次のような方におススメです
  • データを分析をしたいが、どこから始めてよいかわからない方
  • データを仕事に活かしたいが、データの解釈の仕方がわからない方
  • 統計学を体系的に学んだことがない、初学者の方

はじめに

統計学をシリーズで扱っていくことにします。統計学を学んだことがない初学者を対象にして、基礎から解説していきます。第一回目は記述統計を扱います。記述統計では代表値と散布度の取り扱いに分けて解説していきます。この投稿を最後まで読むと記述統計とは何かがわかり、実際にPythonでコードをかけるようになります。

記述統計と推測統計

統計学は、大きく「記述統計学」「推測統計学」「ベイズ統計学」に分けることができます。誤解があるかもしれませんが、簡単に整理すると以下のようになります。

  • 記述統計学
    データの特徴を記述します。代表値と呼ばれるデータを一つの値であらわすことで、他のデータと比較することができます。
  • 推測統計学
    限られた標本から母集団の特徴を推測します。母集団をすべて調べることはできないので、標本を分析して母集団を推測する、というわけです。
  • ベイズ統計学
    ベイズ統計学はある意味特殊で、「標本」を必ずしも必要としません。新たなデータを得た後に確率を計算および更新するためにベイズの定理を用います。※今回はこれは扱いません。

簡単に言うと、記述統計の対象は「標本」であり、他と比較できるように代表値を用いてあらわします。推測統計の(興味の)対象は「母集団」であり、(すべてのデータを調べることのできない)母集団の特徴を、標本から推測します。

今回は、「記述統計」について学んでいきましょう。

記述統計

記述統計では、標本のデータの特徴をあらわします。その際に「代表値」と「散布度」に区別して考えましょう。代表値は、その名の通りデータを代表する値で、平均値や中央値をよく耳にすると思います。代表値はこれだけではなく、他にもあるので今回の投稿でご紹介します。また、もう一方の散布度は、代表値だけでは表しきれないデータの特徴である「ばらつき」を表します。順にみていきましょう。

代表値

代表値は、データの中心的傾向を表します。まずは代表値を整理しましょう。

  • 平均値
    その名の通り、データの平均的な値です。平均値にもいろいろありますが、一般的なのは「算術平均」です。これは、変量の総和を個数で割ったものです。以下を特徴をおさえておくとよいでしょう。

    – 平均からの差(偏差)の合計は0となる。
    – 平均値は各値からの差の2乗の合計(偏差平方和)を最小にする
    外れ値の影響を受けやすい
    – 標本平均を$\bar{x}$、母集団平均を$\mu$であらわすことが多い

  • 中央値
    中央値とはデータを順番に並べて真ん中にくる値のことです。以下の特徴をおさえておきましょう。

    外れ値の影響を受けにくい(平均値よりはうけにくい)
    – データが偶数個の場合は中央の2つの値の平均値とする。
    – 真ん中だけを表しているのでデータの変化・比較には向いていない場合がある。

  • 最頻値
    最頻値とは最も多い度数(頻度)を示す値のことです。以下の特徴をおさえておきましょう。

    – データの個数が少ない場合は、期待(最も度数の多い値)と異なることがある
     データの個数が少ない場合は最頻値は使わない
    分布がきれいな分布でないときに、代表値の候補とする
     ※ただし、山が複数ある場合などは使わないほうが良い

散布度

散布度はデータのばらつきの指標です。データの中心的傾向を表す代表値だけではあらわすことができない分布に関する情報を補完することができます。散布度には以下のような指標があります。

  • 範囲(range)
    「最大値」-「最小値」のこと。最大値と最小値を利用するため、外れ値に弱い。そのため全体のばらつきを表すには不十分な指標となる。

  • 四分位数(quartile)
    データを小さい順に並べて、データの個数で4分割したときの25%,50%,75%の値のことで、それぞれ第1四分位数($Q_{1}$)、第2四分位数($Q_{2}$:中央値)、第3四分位数($Q_{3}$)という。最大値と最小値を使う「範囲」よりは外れ値に強いが、すべてのデータを使うわけではないため、ばらつきを示し指標としては不十分

    $Q_{3}-Q_{1}$「四分位範囲」(IQR:Interquartile range)という。最大値、最小値よりも内側の25%,75%の値を使うため外れ値の影響を受けにくくなる。

    $Q_{3}-Q_{1}$/2 を「四分位偏差」(QD:Quartile Deviation)という。

  • 平均偏差(MD:Mean Deviation)
    平均値あるいは中央値からの偏差の絶対値の平均のことを平均偏差という。すべてのデータを使うので、範囲や四分位数よりばらつきを表す指標として適しているが、絶対値なので扱いにくい。

  • 分散(Variance)
    平均からの偏差の2乗の平均のことを分散という。すべてのデータを使うので、範囲や四分位数よりばらつきを表す指標として適している。

    通常、標本の分散は$s^{2}$、母集団の分散は$\sigma^{2}$であらわす。
    定義式は以下となる。

    \[s^{2}=\frac{1}{n}((x_1-\bar{x})^{2}+(x_2-\bar{x})^{2}+ \dots + (x_{n}-\bar{x})^{2})=\frac{1}{n}\displaystyle \sum_{i=1}^{n}(x_{i}-\bar{x})^{2}\]

    平均偏差では絶対値が扱いにくかったため2乗している。そのため尺度がずれてしまうため、この分散の平方根をとった値を標準偏差として使う。

  • 標準偏差(Standard Deviation)
    平均からの偏差の2乗の平均(=分散)の平方根とのことをいう。すべてのデータを使うので、範囲や四分位数よりばらつきを表す指標として適している。

    通常、標本の標準偏差はs、母集団の標準偏差は$\sigma$であらわす。
    定義式は以下となる。

    \[s=\sqrt{\frac{1}{n}\displaystyle \sum_{i=1}^{n}(x_{i}-\bar{x})^2}\]
スポンサーリンク

まとめ

いかがでしたか?今回は記述統計の基本となる、代表値(平均値、中央値、最頻値)、散布度(範囲、四分位数、平均偏差、分散、標準偏差)について扱いました。データを手に入れたら、まずは分布をみますが、代表値を知ることで他のデータとの比較ができます。ただ、代表値は中心的傾向を見る指標であるため、ばらつきを表せていません。そこで、散布度を扱うのでしたね。散布度では一部のデータを使って算出する範囲、四分位数では外れ値に強いものの、ばらつきを十分に表せていない。そこで、平均偏差という考え方が出てくる。でも、絶対値が扱いにくいから、2乗にした分散が考えられた。2乗にすると、尺度がずれるので平方根をとった標準偏差、という考え化がでてきたのですね。

こうして流れで考えると、理解しやすいのではないでしょうか?次回はこれらの指標をPythonで実装してみましょう。

コメント

タイトルとURLをコピーしました