Top > 2015 > 15th > Independence
AND OR

独立性の検定

  • 2つの変数に関連性があるか、つまり2つの変数の独立性を検定する。
  • アンケートの結果の分析などに利用できる、基本的な手法のひとつ。

分割表(クロス表)

分割表とは

  • 観測された2つの変数(要因と結果など)を組み合わせた表を、「分割表(クロス表)」という
    • クロス集計表ともいう
    • Excelでは「ピボットテーブル」の機能で作ることができる
  • kl列の表からなる分割表を、「 k × l 分割表」という
 \normalsize B_1\normalsize B_2\normalsize B_l
\normalsize A_1\normalsize n_{11}\normalsize n_{12}\normalsize n_{1l}\normalsize n_{1\cdot}
\normalsize A_2\normalsize n_{21}\normalsize n_{22}\normalsize n_{2l}\normalsize n_{2\cdot}
\normalsize A_k\normalsize n_{k1}\normalsize n_{k2}\normalsize n_{kl}\normalsize n_{k\cdot}
\normalsize n_{\cdot1}\normalsize n_{\cdot2}\normalsize n_{{\cdot}l}\normalsize n
  • なお、周辺分布(右端の列や最下行の値)は、次のような意味になる。
    • 標本数 : \normalsize n_{{\cdot}l}
    • i 行の標本数 : \normalsize n_{i {\cdot}} :
    • j 行の標本数 : \normalsize n_{{\cdot} j} :
      \begin{eqnarray}n_{i \cdot} &=& \sum_{j=1}^l n_{ij} \\n_{\cdot j} &=& \sum_{i=1}^k n_{ij} \\n &=& \sum_{i=1}^k \sum_{j=1}^l n_{ij} \\\end{eqnarray}

期待度数

  • 分割表の各セルの期待値は、周辺分布の値から、次のように計算する。
    • ij 列のセルの期待値 : \normalsize e_{ij}
      \begin{eqnarray}e_{ij} &=& n \times \frac{ n_{i \cdot} }{n} \times \frac{ n_{{\cdot} j} }{n} \\&=& \frac{ n_{i \cdot} n_{{\cdot} j} }{ n }\end{eqnarray}

独立性の検定(2×2より大きい表の場合 : 自由度 df >1)

  • 2行2列より大きい分割表の場合は、カイ二乗(\normalsize \chi^2 )分布を利用して検定する

帰無仮説と対立仮説

2つの変数が独立であるか(関連がないか)を調べるを調べる。

  • 帰無仮説 \normalsize H_{0} は「2つの変数は独立である(関連がない)」
  • 対立仮説 \normalsize H_{1} は「2つの変数は独立ではない(関連がある)」

検定統計量の算出

  • 自由度 \normalsize (k-1) \times (l-1) のカイ二乗(\normalsize \chi^2 )分布にしたがう、検定統計量 \normalsize {\chi_0}^2 を次の式から算出する
    {\chi_0}^2 = \sum_{i=1}^k \sum_{j=1}^l \frac{( n_{ij} - e_{ij} )^2}{ e_{ij} }

仮説の判定(両側検定)

  • 検定統計量 \normalsize {\chi_0}^2 と、自由度 \normalsize df = (k-1) \times (l-1) 、有意水準 \normalsize \alpha の有意点の値(カイ二乗分布表などから求める)を使って、判定をする
    • 帰無仮説 \normalsize H_{0} を棄却 : \normalsize |{\chi_0}^2| > \chi^2
      • 「有意に差がある」「検定の結果、有意である」
    • 帰無仮説 \normalsize H_{0} を採択 : \normalsize |{\chi_0}^2| < \chi^2
      • 「有意に差はない」「検定の結果、有意でない」「差があるとはいえない」

独立性の検定(2×2表の場合 : 自由度 df =1)

  • 2行2列の分割表の場合は、直接確率を計算するか、カイ二乗(\normalsize \chi^2 )分布に近似した検定統計量で検定する
    • フィッシャー(Fisher)の直接確率法
      • 標本数が20未満、または標本数が40未満で最小期待値が5未満の場合
    • イェーツ(Yates)の連続補正
      • 標本数が40未満で、フィッシャーの直接確率法の条件を満たさない場合
  • ここでは、Yatesの連続補正について説明する

帰無仮説と対立仮説

2つの変数が独立であるか(関連がないか)を調べるを調べる。

  • 帰無仮説 \normalsize H_{0} は「2つの変数は独立である(関連がない)」
  • 対立仮説 \normalsize H_{1} は「2つの変数は独立ではない(関連がある)」

2×2分割表

  • 観測値による分割表を、次のようにあらわす
     要因1要因2
    結果A\normalsize a\normalsize b\normalsize a+b
    結果B\normalsize c\normalsize d\normalsize c+d
    \normalsize a+c\normalsize b+d\normalsize a+b+c+d =n
  • 期待値による分割表は、次のような表になる
     要因1要因2
    結果A\normalsize (a+b) \times \frac{a+c}{n}\normalsize (a+b) \times \frac{b+d}{n}\normalsize a+b
    結果B\normalsize (c+d) \times \frac{a+c}{n}\normalsize (c+d) \times \frac{b+d}{n}\normalsize c+d
    \normalsize a+c\normalsize b+d\normalsize a+b+c+d =n

検定統計量の算出

  • 2×2分割表では、次の式のような簡便な方法から、自由度 \normalsize (2-1) \times (2-1) =1 のカイ二乗(\normalsize \chi^2 )分布にしたがう、検定統計量 \normalsize {\chi_0}^2 を次の式から算出できる
    {\chi_0}^2 = \frac{ \left( ad-bc \right)^2 n }{ (a + b) (c + d) (a + c) (b + d) }
  • しかし、この方法では、計算した値が実際の \normalsize \chi^2 分布とずれてしまうことがわかっている
    • 理由は、 \normalsize \chi^2 分布は連続的にもかかわらず、計算した検定統計量は離散的だから
  • そこで、Yatesの連続補正を使って補正した、検定統計量 \normalsize {\chi_{0c}}^2 を用いる
    • 原則として、2×2分割表ではYatesの連続補正を使うと考えてよい
      { \chi_{0c} }^2 = \frac{ \left( |ad-bc| - \frac{n}{2} \right)^2 n }{ (a + b) (c + d) (a + c) (b + d) }

仮説の判定(両側検定)

  • 検定統計量 \normalsize {\chi_{0c}}^2 と、自由度 \normalsize df = (2-1) \times (2-1) = 1 、有意水準 \normalsize \alpha の有意点の値(カイ二乗分布表などから求める)を使って、判定をする
    • 帰無仮説 \normalsize H_{0} を棄却 : \normalsize |{\chi_{0c}}^2| > \chi^2
      • 「有意に差がある」「検定の結果、有意である」
    • 帰無仮説 \normalsize H_{0} を採択 : \normalsize |{\chi_{0c}}^2| < \chi^2
      • 「有意に差はない」「検定の結果、有意でない」「差があるとはいえない」

Reload   Diff   Front page List of pages Search Recent changes Backup Referer   Help   RSS of recent changes
Last-modified: Tue, 21 Jul 2015 23:56:00 HADT (3291d)