統計学：初学者向けに確率密度を基本から解説します

この記事はこんな方におススメです

データを分析をしたいが、どこから始めてよいかわからない方
データを仕事に活かしたいが、データの解釈の仕方がわからない方
統計学を体系的に学んだことがない、初学者の方

▶ 初学者向けに統計学を基本から解説しています。はじめから学びたい方は以下の記事からどうぞ

統計学を学んだことがない初学者を対象にして、基礎から解説していきます。第一回目は記述統計を扱います。記述統計では代表値と散布度の取り扱いに分けて解説していきます。この投稿を最後まで読むと記述統計とは何かがわかり、実際にPythonでコードをかけるようになります。

はじめに

統計学を学んだことがない初学者を対象にして基礎から解説しています。今回は確率密度と確率について説明をします。離散型確率変数の分布を表す「確率質量関数」では縦軸が直接、確率を表すのに対して、連続型確率変数の分布を表す「確率密度関数」では描く面積が確率となります。面積を求めるにあたっては、積分が必要になりますが「累積分布関数」を導入すると積分する必要がなくなります。今回はこの順に解説をしていきます。

確率密度と確率

確率の総和は１でしたね。「確率密度関数」が描く面積が確率となるので、「確率密度関数」が描く全面積は１となります。横軸が確率変数がとる各値なので、確率変数の最小値から最大値まで積分するとちょうど１になる、ということですね。確率変数が連続型である場合、確率は区間で考えます。これまで100と扱ってきた数字も、100.01かもしれません。仮に100.00だったとしても、さらに小数点以下を見ると、100.001かもしれません。このように連続変数では厳密にピンポイントの値を指定することができません。

そこで区間を設けて、その区間内に入る確率を求めるようになっています。たとえば、100.00～100.09の区間にある確率、というように考えれば、確率密度関数を100.00から100.09まで積分することで確率を求めることができます。

累積分布関数（CDF：Cumulative Distribution Function）

新しく、「累積分布関数」というものを導入しましょう。この関数は、確率密度関数を負の無限大からある値(ｘ)まで確率を積み上げた値を返す関数となります。確率密度関数が描く面積が確率だったので、負の無限大からある値(x)まで積分した値が確率ですね。確率密度関数から確率を求める場合は「積分」する必要があるのに対して、累積分布関数を導入すると簡単に確率が求められます。

たとえば、f(x)を確率密度関数、g(x)を累積密度関数とします。ある値$x_{1}$以下となる確率P(X=x)は、f(x)、g(x)を使って以下のように表すことができます。

<f(x)を使った場合>

$P(X=x_1)＝\displaystyle \int_{-\infty}^{x_1} f(x)d(x)$

＜g(x)を使った場合＞

$P(X=x_1)=g(x_1)$

累積分布関数を導入すると、計算が簡単そうですね。さらに、ある値$x_{1}$と$x_{2}$の間に入る確率だとどうなるでしょう。

＜f(x)を使った場合＞

$P(x_1\leqq X \leqq x_2)=\displaystyle \int_{x_1}^{x_2} f(x)d(x)$

＜g(x)を使った場合＞

$ P(x_1\leqq X \leqq x_2)=g(x_2)-g(x_1) $

$g(x_2)$が$x_2$以下となる確率を表し、 $g(x_1)$が$x_1$以下となる確率を表すので、$g(x_2)$から$g(x_1)$を引いた$g(x_1)-g(x_2)$で、確率変数Xが区間$x_1 \leqq X \leqq x_2$内に入る確率を求めることができます。

まとめ

今回は確率密度関数が描く面積が確率を表すことを説明し、この面積を求める際に便利な累積分布関数の説明をしました。以下にまとめておきます。

確率密度関数が描く全面積は１（確率の総和は１に対応）
確率密度関数では「区間」が描く面積が確率となる。
累積分布関数を導入すると、連続型確率変数の分布の確率が求めやすくなる。

次回は、実際にPythonでこれらを実装してみましょう。