統計学：初学者向けに連関の検定を基本から解説

この記事はこんな方におススメです

データを分析をしたいが、どこから始めてよいかわからない方
データを仕事に活かしたいが、データの解釈の仕方がわからない方
統計学を体系的に学んだことがない、初学者の方

▶ 統計学の初学者向けに記事を書いています。はじめから読む場合は以下をどうぞ

統計学を学んだことがない初学者を対象にして、基礎から解説していきます。第一回目は記述統計を扱います。記述統計では代表値と散布度の取り扱いに分けて解説していきます。この投稿を最後まで読むと記述統計とは何かがわかり、実際にPythonでコードをかけるようになります。

はじめに

統計学を学んだことがない初学者を対象にして、基本から解説しています。今回は「連関の検定」を基本から解説していきます。連関は、２つのカテゴリ変数間の関係を表すものでした。「連関の検定」ではもこれまで同様にまず、帰無仮説と対立仮説をたてます。連関があることを示したいので、「帰無仮説：連関がない」「対立仮説：連関がある」と設定するところがスタートとなります。

▶ 連関について基本から確認したい場合は、以下の記事をどうぞ。

統計学：初学者向けに連関係数について基本から解説します

今回は、「連関係数」を基本から解説します。連続する変数間の相関関係の強さを表す「相関係数」に対して、カテゴリ変数間の相関関係の強さを表す「連関係数」というものがあります。カテゴリ変数間の関係を調査する際には、「分割表」を扱うことが多いので、あわせて基本から解説します。

連関の検定

標本のデータを複数のカテゴリ変数によって集計したものです。分割表内の数字を「観測度数」といいます。一方で、連関がないと仮定した場合の度数のことを「期待度数」といいます。連関は観測度数が期待度数とどのくらい離れているか、を表す指標でしたね。

「連関の検定」においても、検定するのは標本の背後にある母集団に連関があるかを検定する点に注意してください。

帰無仮説と対立仮説

冒頭にも記載しましたが、連関の検定の場合の帰無仮説、対立仮説は以下のようになります。

帰無仮説：連関がない
対立仮説：連関がある

これまでどうようにある統計量を計算して、その統計量が得られる確率がどの程度であるかによって、帰無仮説を棄却できるかを判断します。

カイ二乗値

連関の強さを表す指標にカイ二乗値があるのでしたね。但し、この値は「標準化」されていない値でした。これを標準化したのが連関係数です。これは、２つの連続変数の相関の強さを表すのに「共分散」があり、これを標準化したのものを相関係数、とするのと同じ発想です。

カイ二乗値の定義式も確認しておきましょう。

\[\chi^2=\displaystyle \sum_{i=1}^{a}\sum_{j=1}^{b}\frac{(n_{ij}-e_{ij})^2}{e_{ij}}\]

a,bは分割表のカテゴリ変数の取りうる値です。$n_{ij}$は分割表内の観測度数、$e_{ij}$は期待度数となります。

検定の場合は、このカイ二乗値を標準化する必要はなく、このカイ二乗値がどのくらいの確率で得られるのかを考えます。カイ二乗値は「カイ二乗分布」という分布に従います。

カイ二乗分布

自由度というパラメータを持つ分布です。その名の通り、カイ二乗値はこの分布に従います。行方向・列方向それぞれに配置したカテゴリ変数の取りうる値をa, bとしたときに、分割表はa×bとなります。この分割表の自由度は(a-1)(b-1)となります。

連関の検定

帰無仮説が正しいとした場合にカイ二乗分布から「カイ二乗値」が得られる確率（つまりp値ですね）を考えていきましょう。帰無仮説は「連関がない」でした。連関がないということは、観測度数と期待度数が一致するので、定義式の$(n_{ij}-e_{ij})$の部分が0になりカイ二乗値は0になります。このときはp値は1になります。カイ二乗分布は横軸がカイ二乗値なので、求めたカイ二乗値を確認してその値より大きい領域の面積が、カイ二乗値が得られる確率になります。つまり、これがp値になります。有意水準5％で検定するのであれば、p値が0.05より大きいかどうかで判断することができます。0.05より小さければ棄却域となります。