統計学：初学者向けに連関係数について基本から解説します

この記事はこんな方におススメです

データを分析をしたいが、どこから始めてよいかわからない方
データを仕事に活かしたいが、データの解釈の仕方がわからない方
統計学を体系的に学んだことがない、初学者の方

▶ 初学者向けに統計学を基本から解説しています。こちらの記事もご参考にどうぞ。

統計学を学んだことがない初学者を対象にして、基礎から解説していきます。第一回目は記述統計を扱います。記述統計では代表値と散布度の取り扱いに分けて解説していきます。この投稿を最後まで読むと記述統計とは何かがわかり、実際にPythonでコードを...

はじめに

統計学を学んだことがない方を対象に基本から解説しています。今回は、「連関係数」を基本から解説します。連続する変数間の相関関係の強さを表す「相関係数」に対して、カテゴリ変数間の相関関係の強さを表す「連関係数」というものがあります。カテゴリ変数間の関係を調査する際には、「分割表」を扱うことが多いので、あわせて基本から解説します。

カテゴリ変数間の相関関係

カテゴリ変数間の相関の強さをあらわす指標として「連関」がある。相関があったり相関が強いときに、「連関がある」とか「連関が強い」という表現をします。連関を扱う際には「分割表」を用いることが多いです。これは、クロステーブルとのことです。この分割表を用いて、連関の強さを数値として表した「連関係数」を求めることができます。順にみていきましょう。

カテゴリ変数間の相関関係を連関という
分割表を用いて連関の強さを表す「連関係数」を計算する

分割表（クロステーブル）

まずは用語を押させておきましょう。分割表という用語は耳慣れないかもしれませんが、クロステーブルのことです。英語ではcontingency table　といいます。分割表内の数字を観測度数（observed frequency）といいいます。また、連関がないと仮定した場合の度数のことを期待度数（expected frequency）といいます。

$\chi^{2}$（カイ二乗値）

連関の強さは言い換えれば、観測度数が期待度数とどのくらい離れているか、となる。これは連関がないと仮定した場合の度数が期待度数なのだから、当たり前ですね。この観測度数が期待度数からどのくらい離れているかを計算した値を「カイ二乗値」（$\chi^{2}$:chi squared）といいます。定義式は以下となります。

\[\chi^{2}=\displaystyle \sum_{i=1}^{a}\sum_{j=1}^{b}\frac{(n_{ij}-e_{ij})^{2}}{e_{ij}}\]

ただし、この$\chi^{2}$値は、標準化されたものではないため、この値だけで連関の強さを比較することができない。これは連続変数の時に、「共分散」が相関の強さを表すけど、そのまま比較には使えなかったのと同じです。「共分散」を標準化して「相関係数」を導入したように、$\chi^{2}$値を標準化した「連関係数」を導入する。

観測度数が期待度数からどのくらい離れているかを表したもの
$ (観測度数 – 期待度数)^{2}/期待度数$の総和
そのままでは比較に使えないので標準化した「連関係数」を用いる

連関係数

連関の強さを表す指標を連関係数といいます。これは、$\chi^{2}$値を0～1に標準化した値となります。定義式は以下となります。

\[V=\sqrt{\frac{\chi^{2}}{(min(a,b)-1)N}}\]

式中のaは分割表の行数、bは分割表の列数、min(a,b)はaとbの小さいほうを表します。また、Nは全体の度数の合計となります。

連関の強さを表す指標
$\chi^{2}$値を0～1に標準化した値

まとめ

いかがでしたか？今回はカテゴリ変数間の相関の強さを表す「連関」について扱いました。連続変数間の相関の強さのときと同じような考えが適用されていることがわかりましたね。

まず、連関の強さを表し指標として$\chi^{2}$値がある。ただし、これらは標準化されていないのでそのまま比較に使用することはできないため、標準化した「連関係数」を使うのでした。この際に、連続変数の場合には正の相関・負の相関があるので「-1～1」の間で標準化したのに対し、カテゴリ変数では「負」は意味をなさないので、「0～1」の間で標準化する、ということですね。