[ ホーム | 一覧 | 検索 | 最終更新 | ヘルプ ] [ 新規 ]

健康統計の基礎・健康統計学 - 2010/4th/Correlation のバックアップ(No.2)

AND OR
  • バックアップ一覧
  • 差分 を表示
  • 現在との差分 を表示
  • 現在との差分 - Visual を表示
  • ソース を表示
  • 2010/4th/Correlation へ行く。
    • 1 (2010-05-04 (火) 15:42:07)
    • 2 (2010-05-05 (水) 01:27:04)
    • 3 (2010-05-06 (木) 05:55:52)

相関 (correlation)

2種類のデータのあいだになんらかの関係がある場合、 統計学的な関係性がみられるときに、「相関がある」「相関関係がある」という。

  • データの大小に関して、一方の値が変わるにつれて、もう一方の値も変わる
    • 身長と体重
    • 収縮期血圧と拡張期血圧
▲ ▼

データの尺度と相関関係

データを大雑把に、量的データ(比例尺度、間隔尺度)と 質的データ(順序尺度、名義尺度)に分けるときに、 データの尺度によって、相関関係を表す指標は異なります。 次の表を参考にしてください。

2つのデータの尺度相関関係を表す指標
量的データ×量的データピアソンの積率相関関数
順位データ×順位データスピアマンの順位相関関数
量的データ×質的データ相関比
質的データ×質的データクラメールの連関(関連)係数

この授業では、よく利用される、 ピアソンの積率相関係数とスピアマンの順位相関係数を扱います。

▲ ▼

相関係数 (correlation coefficient)

▲ ▼

相関の種類

  • 線形相関:相関(関係)を示すグラフ(散布図)が1本の直線で近似できる
    • 順相関:相関が正の場合(散布図が右肩あがりの傾向)
    • 逆相関:相関が負の場合(散布図が右肩さがりの傾向)
    • 無相関:相関がない場合(散布図がまばらになっている)
  • 非線形相関:相関を示すグラフが指数関数や2次・3次関数のように曲線状になる
▲ ▼

偏差積和

  • 偏差積和(偏差の積和)\normalsize S_{xy} とは、偏差(各データと平均の差)の積の総和である。
    \begin{eqnarray}S_{xy} &=& \sum_{i=1}^n d_x d_y \\&=& \sum_{i=1}^n (x_i - \bar{x}) (y_i - \bar{y})\end{eqnarray}
    • 標本数: \normalsize n
    • 偏差: \normalsize d_x , \normalsize d_y
▲ ▼

相関係数(ピアソンの積率相関係数)

  • 相関係数(ピアソン(Pearson)の積率相関係数) \normalsize r は、相関の程度をあらわし、次の値をとる。
    (一般に相関関数といえばコレ)
    -1 \leq r \leq +1
    • 完全相関:相関係数が±1の場合
    • 無相関:相関係数が0の場合
  • 相関係数 \normalsize r は、次の式で求められる
    \begin{eqnarray}r &=& \frac{1}{n} \frac{ \sum_{i=1}^n (x_i - \bar{x}) (y_i - \bar{y}) }{s_x s_y} \\&=& \frac{1}{n} \frac{ S_{xy} }{s_x s_y}\end{eqnarray}
    • 標本数: \normalsize n
    • 標準偏差: \normalsize s_x , \normalsize s_y
    • 偏差積和: \normalsize S_{xy}
  • または、次の式でも求められる(統計量だけから計算できる)
    \begin{eqnarray}r &=& \frac{ 1 }{s_x s_y} \left( \frac{ \sum x_i y_i }{n} - \bar{x} \right) \\&=& \frac{ 1 }{s_x s_y} \left( \frac{ T_{xy} }{n} - \bar{x} \bar{y} \right)\end{eqnarray}
    • 積和(2変数の積の合計):
      T_{xy} = \sum_{i=1}^n x_i y_i
▲ ▼

共分散(covariance)

  • 共分散 \normalsize s_{xy} は、偏差積和を標本数で割ったもの。
    \begin{eqnarray}s_{xy} &=& \frac{1}{n} S_{xy} \\&=& \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x}) (y_i - \bar{y}) \\&=& \frac{1}{n} \sum_{i=1}^n d_x \cdot d_y\end{eqnarray}
    • 標本数: \normalsize n
    • 偏差: \normalsize d_x , \normalsize d_y
  • 共分散 \normalsize s_{xy} を使うと、相関係数は次のように表せる。
    r = \frac{ s_{xy} }{s_x s_y}
▲ ▼

偏差平方和

  • 偏差平方和 \normalsize S_{xx} は、偏差の二乗の合計を計算したもの
    \begin{eqnarray}S_{xx} &=& \sum_{i=1}^n {d_x}^2 \\&=& \sum_{i=1}^n (x_i - \bar{x})^2\end{eqnarray}
  • 偏差平方和 \normalsize S_{xx} を使うと、相関係数は次のように表せる。
    \begin{eqnarray}r &=& \frac{ S_{xy} }{ \sqrt{ S_{xx} S_{yy} } } \\&=& \frac{ \sum (x_i - \bar{x}) (y_i - \bar{y}) }{ \sqrt{ \sum (x_i - \bar{x})^2 \sqrt{ \sum (y_i - \bar{y})^2} } }\end{eqnarray}
▲ ▼

相関関係と因果関係

▲ ▼

相関関係から因果関係を確定するときの注意点

  1. 関連の時間性
    • 原因は結果の前にあるか
  2. 関連の密接性
    • 原因が結果に密接に関連するか
  3. 関連の特異性
    • 原因が結果にどの程度かかわっているか
  4. 関連の普遍性
    • 対象や時期、方法などが異なっていても、類似した結果が得られるか
  5. 関連の合理性
    • 従来の理論や経験から考えて矛盾がないか
▲ ▼

疑似相関(見かけの相関)

  • 直接の相関はないが何かある要因が2つの事象と相関しているために、 2つの事象に相関がみられるケースがある。
  • 相関関係があるからといって、それが必ずしも因果関係であるとは限らない場合がある。
    • 「ビアホールでの1日当たりの生ビールの売り上げ数」と「アイスクリーム店のお客の数」
    • 「進行性の疾患をもつ患者の疾患についての知識」と「その疾患の進行度」
▲ ▼

相関の程度

相関係数の値から、相関の程度を次のように記述できる。

-1.0≦相関係数r<-0.7強い負の相関
-0.7≦相関係数r<-0.4かなりな負の相関
-0.4≦相関係数r<-0.2やや負の相関
-0.2≦相関係数r≦0.2ほとんど相関がない
0.2<相関係数r≦0.4やや正の相関
0.4<相関係数r≦0.7なかりな正の相関
0.7<相関係数r≦1強い正の相関

なお、標本数が少ない場合は、母相関係数の推定や検定(後日説明)が必要となる。

▲ ▼

順位相関係数(rank correlation coefficient)

  • 相関がない場合や順位に意味がある・順位だけしかわからない場合には、順位データ(データを小さいほうから並べた順位)をもとに相関を求めてみる。
    • 英語のテストの順位と数学のテストの順位の相関
    • 2つの銘柄の株価の相関(経済分野)
    • 薬と奇形児発生の相関(医学分野)
      • 順位尺度のデータだけでなく、比例・間隔尺度のデータについても何らかの順位を求めることで適用できる。
  • スピアマン(Spearman)の順位相関係数 \normalsize r_s は、 相関係数と同様、次の値をとる。
    -1 \leq r_s \leq +1
  • 同一順位の場合は、次のように扱う(平均順位)
    • 2位が2つある場合:2位と3位の中間 (2+3)/2=2.5位を順位とする
    • 4位が3つある場合:4位と5位と6位の中間 (4+5+6)/3=5位を順位とする
  • 順位相関係数は、次のようにして求められる。
    r_s = 1 - \frac{ 6 \sum_{i=1}^n {d_i}^2 }{n^3 - n}
    • 標本数: \normalsize n
    • i 番目の順位差: \normalsize d_i
データ1データ2順位差 \normalsize d順位差の二乗 \normalsize d^2
\normalsize x_1\normalsize y_1\normalsize d_1 = x_1 - y_1\normalsize {d_1}^2
\normalsize x_2\normalsize y_2\normalsize d_2 = x_2 - y_2\normalsize {d_2}^2
\normalsize x_3\normalsize y_3\normalsize d_3 = x_3 - y_3\normalsize {d_3}^2
…………
\normalsize x_n\normalsize y_n\normalsize d_n = x_n - y_n\normalsize {d_n}^2
計0\normalsize \sum_{i=1}^n {d_n}^2

メニュー

  • トップページ
  • 参考書籍

授業内容

  • 第1回
  • 第2回
  • 第3回
  • 第4回

ケータイで教員にメール

mkawano%40ed.hyogo-dai.ac.jp

今日の5件
  • 2011/6th/Excel2(36)
  • 2015/5th/Excel2(32)
  • FrontPage(9)
  • 2012/9th(3)
  • 2025/BHS/8th(3)
最新の10件
2025-06-02
  • 2025/BHS/8th/1st
  • 2025/BHS/8th/exercise
  • 2025/BHS/8th
  • 2025/BHS
2025-05-26
  • 2025/BHS/7th/exercise
  • 2025/BHS/7th/1st
  • 2025/BHS/7th
2025-05-19
  • 2025/BHS/6th/1st
2025-05-12
  • 2025/BHS/5th/exercise
  • 2025/BHS/6th/exercise

total: 2918
today: 1
yesterday: 0
now: 1

リロード   差分   ホーム 一覧 検索 最終更新 バックアップ リンク元   ヘルプ   最終更新のRSS
http%3A%2F%2Fhs-www.hyogo-dai.ac.jp%2F~kawano%2FHStat%2F%3F2010%25252F4th%25252FCorrelation
Founded by Minoru Kawano.
Powered by PukiWiki Plus! 1.4.7plus-u2-i18n. HTML convert time to 0.134 sec.
Valid XHTML 1.1