Python

統計学:初学者向けに比率差の検定を基本から解説

スポンサーリンク

この記事はこんな方におススメです
  • データを分析をしたいが、どこから始めてよいかわからない方
  • データを仕事に活かしたいが、データの解釈の仕方がわからない方
  • 統計学を体系的に学んだことがない、初学者の方

▶ 統計学の初学者向けに記事を書いています。はじめから読む場合は以下をどうぞ

はじめに

統計学を学んだことがない初学者を対象にして、基本から解説しています。今回は「比率差の検定」を扱います。統計的仮説検定の流れはまず帰無仮説(棄却することを狙っている仮説)と対立仮説(成立することを狙っている仮説)をたて、帰無仮説が正しいという仮定のもとで標本観察を進めて仮説を否定できれば「対立仮説」を成立させる、という流れでしたね。比率差の検定で実際に見ていきましょう。

比率差の検定

比率差の検定は、(そのまんまですが)「2群の比率に差があるのかを検定する」ことを言います。たとえば、メール配信をおこなう際にメールの件名を変えて2パターンの配信をした際に、開封率があがったかどうかを確かめるようなA/Bテストも、「比率差の検定」にあたります。

この検定は、母数に差があるのかを検定していることに注意しましょう。既に手元にあるデータはあくまで標本で、これらの比率に差があるかどうかは直接、知ることができる。これらの標本の背後にある母数に差があるかを検定している、ということに注意が必要です。

帰無仮説と対立仮説

メール配信の開封率の例で進めることにしましょう。パターンAとパターンBにわけてメール配信をしたときに、パターンA、パターンBそれぞれの背後にある母集団の開封率(それぞれp1、p2とします)に差があるかどうかを検定することにしましょう。ここではパターンBがパターンAの改善案だとして、p1<p2を証明したいとしましょう。すると、帰無仮説、対立仮説はどのようになるでしょうか?

帰無仮説は簡単ですね。棄却されることを狙った仮説でしたね。いま、p1<p2を示したければ、帰無仮説はp1=p2でよいでしょう。つまり、p1=p2という仮定のもので標本観察を進めていき、この仮説を否定できれば良いのでしたね。

次に対立仮説はどうでしょうか?対立仮説は成立させたい仮説です。今回、示したいのはp1<p2でしたね。なので、これを設定すればよいです。対立仮説をp1≠p2に設定しては、p1<p2を導けないので注意しましょう。示したい内容によって対立仮説の設定は変わってきますし、また、検定の方法も変わってきます。p1≠p2のような「p1<p2」でも「p1>p2」のどちらのケースでもよい場合(差があればよい場合)は両側検定、p1<p2(あるいはp1>p2)のような(差があるだけではなく)一方が必ず大きくなるような場合は片側検定といいます。

  • 帰無仮説
    p1とp2に差はない。言い換えると、p1=p2
  • 対立仮説
    p1<p2。

帰無仮説が正しいという仮定のもと、標本観察をするのでした。パターンAを標本A、パターンBを標本Bとして考えることにしましょう。いま、標本Aのメール配信数を$n_1$、開封数を$x_1$、標本Bのメール配信数を$n_2$、開封数を$x_2$としましょう。すると、標本の開封率はそれぞれ以下のようになります。

\[
標本Aの開封率=\frac{x_1}{n_1}
\]

\[
標本Bの開封率=\frac{x_2}{n_2}
\]

開封率の差である

\[\frac{x_1}{n_1}-\frac{x_2}{n_2}\]

は確率変数となるから、標本分布を考えることができます。このあとは、2つの標本から得られた比率の差がこの標本分布からどのくらいの確率で得られるか?を考えていきます。このとき、帰無仮説が正しい、つまりp1=p2と仮定して標本分布を考えていき、帰無仮説を棄却できれば対立仮説が成立させます。

比率の標本分布

「比率の差の標本分布」を考える前に、「比率の標本分布」を復習しておきましょう。

  • 確率変数Xが二項分布に従うとき、nが十分大きければ平均np,分散npqの正規分布に近似できる
  • 確率変数X/nはnが十分大きいければ平均p,分散pq/nの正規分布に近似できる

▶ 比率の区間推定・平均の区間推定は以下で扱っています。

つまり、開封数をx、配信数をnとすると、nが大きければ開封率$\frac{x}{n}$は平均p、分散pq/nとなります。(pは母比率、q=1-p)

比率の差の標本分布

比率の差の標本分布は以下のようになる。標本A(開封数$x_1$、配信数$n_1$)、標本B(開封数$x_2$、配信数$n_2$)とすると、比率の差「$x_1/n_1 – x_2/n_2$」の標本分布は、

\[平均:p_1 – p_2\]

\[分散:\frac{p_1 q_1}{n_1}+\frac{p_1 q_2}{n_2}\]

となる。比率の差の標本分布は、平均はそれぞれの平均の差、分散はそれぞれの分散の和となる。比率の差の標本分布がわかると、検定でやる作業は決まっていますね。実際に標本から得られた比率の差が、比率の差の標本分布からどのくらいの確率で得られるのかを見ていきます。標本分布からはなかなか得られないようなものであれば、帰無仮説を棄却するのでしたね。

スポンサーリンク

帰無仮説が正しいと仮定した場合の標本分布

帰無仮説が正しいと仮定すると、p1=p2でしたね。つまり、比率の差の標本分布は、平均p1-p2=0となります。分散は、

\[\begin{eqnarray}
分散:\frac{p_1 q_1}{n_1}+\frac{p_1 q_2}{n_2}&=&\frac{pq}{n_1}+\frac{pq}{n_2}\\
&=&pq\left( \frac{1}{n_1}+\frac{1}{n_2} \right) \\
&=&p(1-p) \left( \frac{1}{n_1}+\frac{1}{n_2} \right)
\end{eqnarray}\]

正規分布の平均と分散がわかったので、実際に標本から得られた比率の差が、どのくらいの確率で得られるのかを考えていけばよいですね。めったに得られない場合は帰無仮説を棄却するわけですが、この基準を決める必要があります。この基準のことを有意水準といいます。

有意水準

有意水準は帰無仮説が正しいと仮定した際に、めったに得られない確率とみなす基準のことでした。通常αで表し、α=0.05なら5%基準、α=0.01なら1%基準となります。最終的に有意水準以下の確率になるかどうかを見る値のことを検定統計量といいます。帰無仮説が棄却されたとき、「統計的に有意である」という表現をする。

<両側検定の場合(差がある)>
両側検定の場合は差があればよく、どちらが大きい(あるいは小さい)かは関係ないので、有意水準を両側に持ちます。そのため、たとえば有意水準5%だったら、下側に2.5%、上側に2.5%を設定して合わせて5%とします。

<片側検定の場合(どちらかが大きい)>
片側検定には、どちらが大きいかによって「上側」と「下側」がありますが、考え方はまったく同じです。今回は上側で考えることにしましょう。たとえば、有意水準5%だったら上側に5%の有意水準を設定すればOKです。

ここまでくると、あとは簡単ですね。区間推定のときにやった標本分布を標準化して、有意水準5%で両側検定であれば-1.96~1.96の範囲に入らなければ、帰無仮説が棄却できる、というわけです。片側検定の場合は、5%の有意水準のときは下側なら-1.64、上側なら1.64が有意水準になります。

標本分布の標準化

標準化はこれまでも扱ってきましたね。わからない場合は以下の投稿をご覧下さい。
▶ 初学者向けに「標準化」を基本から解説します。

標準化するには、平均を引いて標準偏差で割るのでした。平均は0で分散は$(1-p)(\frac{1}{n_1}+\frac{1}{n_2})$なので、

\[z=\frac{\frac{x_1}{n_1}-\frac{x_2}{n_2}}{\sqrt{p(1-p)\left ( \frac{1}{n_1}+\frac{1}{n_2} \right )}}\]

となりますね。これを計算できれば良いのですが母比率pが未知なので、これを直接求めることができません。そこで母集団のpの推定値$\hat{p}$を用いることにします。ちなみに統計学では推定値を「$\hat{}$ (ハット)」であらわすことがよくあるので覚えておくとよいですね。

母比率の推定

母比率pの推定値$\hat{p}$として、2つの標本を合わせた比率を用いることができます。つまり、次のようになります。

\[\hat{p}=\frac{x_1+x_2}{n_1+n_2}\]

この推定値を用いれば、先ほどのzの値はすべて既知の値となり計算できますね。あとは、この値を「検定統計量」と比較するだけです。今回の例では、有意水準5%の下側検定だとすると、-1.64よりも小さければ棄却域に入るので帰無仮説を棄却、逆に-1.64よりも大きければ帰無仮説を棄却することはできない、ということになります。

ちなみに、帰無仮説が正しいと仮定した際に「検定統計量」が得られる確率をp値(probability)といいます。p値でみると、下側検定では5%よりも確率が小さければ帰無仮説を棄却できるので、p値が0.05より小さい、ということになります。

帰無仮説が棄却できた場合は、対立仮説の成立が言えますが、帰無仮説を否定できなかった場合は、かならずしも帰無仮説が成立するわけではない点に注意が必要です。

スポンサーリンク

まとめ

いかがでしたでしょうか?今回は比率差の検定を扱いました。統計ツールを使わずにステップを追ってみましたが、ステップも多く難しく感じたかと思います。ただ、最終的にもいつも同じようなことをやっているんだな、と感じていただけたかと思います。普段はこのようなステップを踏む必要は全くありません。ただ、統計ツールが裏側で何をやっているか、というのは理解しておいたほうが良いですね。

今回の内容をまとめておきます。

まず、標本・母集団の設定を確認します。そのうえで、棄却されることが前提である仮説(帰無仮説)と成立させたい仮説(対立仮説)を設定して、帰無仮説が成り立つことを仮定して標本観察をします。今回は、メールの開封率(開封数/配信数)という「比率」に差があるか、の検定だったので、2群の比率差の標本分布を考えましたね。標本分布がわかると、ある統計量がどのくらいの確率で取り出されるのか?によって、なかなか発生しない現象なのか、よく発生する現象なのかを判断することができます。統計量を直接、計算できない場合は推定値を使います。今回は母比率pが未知なので、推定量$\hat{p}$を使いました。こうして計算した統計量が棄却域に入るかどうか、をみて帰無仮説が棄却されるかどうかを判断しました。

コメント

タイトルとURLをコピーしました