TITLE:相関 *相関 (correlation) [#p86b56d9] 2種類のデータのあいだになんらかの関係がある場合、 統計学的な関係性がみられるときに、「''相関がある''」「相関関係がある」という。 統計学的な関係性がみられるときに、 「''相関がある''」や「''相関関係がある''」といいます。 -データの大小に関して、一方の値が変わるにつれて、もう一方の値も変わる --身長と体重 --収縮期血圧と拡張期血圧 **データの尺度と相関関係 [#e10b47dd] データを大雑把に、量的データ(比例尺度、間隔尺度)と 質的データ(順序尺度、名義尺度)に分けるときに、 データの尺度によって、相関関係を表す指標は異なります。 次の表を参考にしてください。 |LEFT:|LEFT:|c |~2つのデータの尺度|~相関関係を表す指標|h |量的データ×量的データ|ピアソンの積率相関関数| |順位データ×順位データ|スピアマンの順位相関関数| |量的データ×質的データ|相関比| |質的データ×質的データ|クラメールの連関(関連)係数| この授業では、よく利用される、 ピアソンの積率相関係数とスピアマンの順位相関係数を扱います。 **相関係数 (correlation coefficient) [#z9c93011] ***相関の種類 [#te624a4e] -線形相関:相関(関係)を示すグラフ(散布図)が1本の直線で近似できる --順相関:相関が正の場合(散布図が右肩あがりの傾向) --逆相関:相関が負の場合(散布図が右肩さがりの傾向) --無相関:相関がない場合(散布図がまばらになっている) -非線形相関:相関を示すグラフが指数関数や2次・3次関数のように曲線状になる ***偏差積和 [#u3fa642f] -偏差積和(偏差の積和)&mimetex(\normalsize S_{xy}); とは、偏差(各データと平均の差)の積の総和である。 #mimetex(){{ \begin{eqnarray} S_{xy} &=& \sum_{i=1}^n d_x d_y \\ &=& \sum_{i=1}^n (x_i - \bar{x}) (y_i - \bar{y}) \end{eqnarray} }} --標本数: &mimetex(\normalsize n); --偏差: &mimetex(\normalsize d_x); , &mimetex(\normalsize d_y); ***相関係数(ピアソンの積率相関係数) [#e73696e0] -相関係数(ピアソン(Pearson)の積率相関係数) &mimetex(\normalsize r); は、相関の程度をあらわし、次の値をとる。&br;(一般に相関関数といえばコレ) #mimetex(){{ -1 \leq r \leq +1 }} --完全相関:相関係数が±1の場合 --無相関:相関係数が0の場合 -相関係数 &mimetex(\normalsize r); は、次の式で求められる #mimetex(){{ \begin{eqnarray} r &=& \frac{1}{n} \frac{ \sum_{i=1}^n (x_i - \bar{x}) (y_i - \bar{y}) }{s_x s_y} \\ &=& \frac{1}{n} \frac{ S_{xy} }{s_x s_y} \end{eqnarray} }} --標本数: &mimetex(\normalsize n); --標準偏差: &mimetex(\normalsize s_x); , &mimetex(\normalsize s_y); --偏差積和: &mimetex(\normalsize S_{xy}); -または、次の式でも求められる(統計量だけから計算できる) #mimetex(){{ \begin{eqnarray} r &=& \frac{ 1 }{s_x s_y} \left( \frac{ \sum x_i y_i }{n} - \bar{x} \right) \\ r &=& \frac{ 1 }{s_x s_y} \left( \frac{ \sum x_i y_i }{n} - \bar{x}\bar{y} \right) \\ &=& \frac{ 1 }{s_x s_y} \left( \frac{ T_{xy} }{n} - \bar{x} \bar{y} \right) \end{eqnarray} }} --積和(2変数の積の合計): #mimetex(){{ T_{xy} = \sum_{i=1}^n x_i y_i }} ***共分散(covariance) [#u8d2f203] -共分散 &mimetex(\normalsize s_{xy}); は、偏差積和を標本数で割ったもの。 #mimetex(){{ \begin{eqnarray} s_{xy} &=& \frac{1}{n} S_{xy} \\ &=& \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x}) (y_i - \bar{y}) \\ &=& \frac{1}{n} \sum_{i=1}^n d_x \cdot d_y \end{eqnarray} }} --標本数: &mimetex(\normalsize n); --偏差: &mimetex(\normalsize d_x); , &mimetex(\normalsize d_y); -共分散 &mimetex(\normalsize s_{xy}); を使うと、相関係数は次のように表せる。 #mimetex(){{ r = \frac{ s_{xy} }{s_x s_y} }} ***偏差平方和 [#pb2e9cd9] -偏差平方和 &mimetex(\normalsize S_{xx}); は、偏差の二乗の合計を計算したもの #mimetex(){{ \begin{eqnarray} S_{xx} &=& \sum_{i=1}^n {d_x}^2 \\ &=& \sum_{i=1}^n (x_i - \bar{x})^2 \end{eqnarray} }} -偏差平方和 &mimetex(\normalsize S_{xx}); を使うと、相関係数は次のように表せる。 - &mimetex(\normalsize x); と &mimetex(\normalsize y); についての偏差平方和 &mimetex(\normalsize S_{xx}); と &mimetex(\normalsize S_{yy}); を使うと、相関係数は次のように表せる。 #mimetex(){{ \begin{eqnarray} r &=& \frac{ S_{xy} }{ \sqrt{ S_{xx} S_{yy} } } \\ &=& \frac{ \sum (x_i - \bar{x}) (y_i - \bar{y}) }{ \sqrt{ \sum (x_i - \bar{x})^2 \sqrt{ \sum (y_i - \bar{y})^2} } } &=& \frac{ \sum_{i=1}^n (x_i - \bar{x}) (y_i - \bar{y}) }{ \sqrt{ \sum_{i=1}^n (x_i - \bar{x})^2 \sum_{i=1}^n (y_i - \bar{y})^2 } } \end{eqnarray} }} **相関関係と因果関係 [#q9f18fc2] ***相関関係から因果関係を確定するときの注意点 [#fdb8b64d] 何でもよいから2組のデータの関係性を調べればよいわけではありません。 次のような5つの因果関係が認められる場合に、 相関関係を調べることが有効になります。 +関連の時間性 --原因は結果の前にあるか +関連の密接性 --原因が結果に密接に関連するか +関連の特異性 --原因が結果にどの程度かかわっているか +関連の普遍性 --対象や時期、方法などが異なっていても、類似した結果が得られるか +関連の合理性 --従来の理論や経験から考えて矛盾がないか ***疑似相関(見かけの相関) [#c90ac778] -直接の相関はないが何かある要因が2つの事象と相関しているために、 2つの事象に相関がみられるケースがある。 -相関関係があるからといって、それが必ずしも因果関係であるとは限らない場合がある。 --「ビアホールでの1日当たりの生ビールの売り上げ数」と「アイスクリーム店のお客の数」 --「進行性の疾患をもつ患者の疾患についての知識」と「その疾患の進行度」 直接の相関はないが、''何かある要因が2つの事象と相関している''ために、 2つの事象に相関がみられるケースがあります。 このような場合を「''疑似相関''」といいます。 つまり、相関関係があるからといって、 それが必ずしも因果関係であるとは限らない場合です。 -「ビアホールでの生ビールの売り上げ数」と「アイスクリーム店のお客の数」 --2つの事象には「気温」「天候」などが相関している -「進行性の疾患をもつ患者の疾患についての知識」と「その疾患の進行度」 --2つの事象には「疾患の内容」「治療期間」などが相関している ***相関の程度 [#o7e4fcdb] 相関係数の値から、相関の程度を次のように記述できる。 相関係数の値から、相関の程度を次のように記述できます。 |CENTER:|LEFT:|c |-1.0≦相関係数'''r'''<-0.7|強い負の相関| |-0.7≦相関係数'''r'''<-0.4|かなりな負の相関| |-0.4≦相関係数'''r'''<-0.2|やや負の相関| |-0.2≦相関係数'''r'''≦0.2|ほとんど相関がない| |0.2<相関係数'''r'''≦0.4|やや正の相関| |0.4<相関係数'''r'''≦0.7|なかりな正の相関| |0.4<相関係数'''r'''≦0.7|かなりな正の相関| |0.7<相関係数'''r'''≦1|強い正の相関| なお、標本数が少ない場合は、母相関係数の推定や検定(後日説明)が必要となる。 なお、標本数が少ない場合は、 母相関係数の推定や検定(後日説明)が必要となります。 **順位相関係数(rank correlation coefficient) [#sa466d65] -相関がない場合や順位に意味がある・順位だけしかわからない場合には、順位データ(データを小さいほうから並べた順位)をもとに相関を求めてみる。 --英語のテストの順位と数学のテストの順位の相関 --2つの銘柄の株価の相関(経済分野) --薬と奇形児発生の相関(医学分野) ---順位尺度のデータだけでなく、比例・間隔尺度のデータについても何らかの順位を求めることで適用できる。 相関がない場合や順位に意味がある・順位だけしかわからない場合には、 順位データ(データを小さいほうから並べた順位)をもとに、 相関を求める方法が有効になります。 -英語のテストの順位と数学のテストの順位の相関 -2つの銘柄の株価の相関(経済分野) -薬と奇形児発生の相関(医学分野) また、順位尺度のデータだけでなく、 比例・間隔尺度のデータについても何らかの順位を求めることで適用できます。 -スピアマン(Spearman)の順位相関係数 &mimetex(\normalsize r_s); は、 相関係数と同様、次の値をとる。 #mimetex(){{ -1 \leq r_s \leq +1 }} -同一順位の場合は、次のように扱う(平均順位) --2位が2つある場合:2位と3位の中間 (2+3)/2=2.5位を順位とする --4位が3つある場合:4位と5位と6位の中間 (4+5+6)/3=5位を順位とする -順位相関係数は、次のようにして求められる。 #mimetex(){{ r_s = 1 - \frac{ 6 \sum_{i=1}^n {d_i}^2 }{n^3 - n} }} --標本数: &mimetex(\normalsize n); --i 番目の順位差: &mimetex(\normalsize d_i); |CENTER:|CENTER:|CENTER:|CENTER:|c |~データ1|~データ2|~順位差 &mimetex(\normalsize d); |~順位差の二乗 &mimetex(\normalsize d^2);|h |~データ1の順位|~データ2の順位|~順位差 &mimetex(\normalsize d); |~順位差の二乗 &mimetex(\normalsize d^2);|h |&mimetex(\normalsize x_1);|&mimetex(\normalsize y_1);|&mimetex(\normalsize d_1 = x_1 - y_1);| &mimetex(\normalsize {d_1}^2 );| |&mimetex(\normalsize x_2);|&mimetex(\normalsize y_2);|&mimetex(\normalsize d_2 = x_2 - y_2);| &mimetex(\normalsize {d_2}^2 );| |&mimetex(\normalsize x_3);|&mimetex(\normalsize y_3);|&mimetex(\normalsize d_3 = x_3 - y_3);| &mimetex(\normalsize {d_3}^2 );| |…|…|…|…| |&mimetex(\normalsize x_n);|&mimetex(\normalsize y_n);|&mimetex(\normalsize d_n = x_n - y_n);| &mimetex(\normalsize {d_n}^2 );| |計||0| &mimetex(\normalsize \sum_{i=1}^n {d_n}^2 );| |