回帰 - 健康統計の基礎・健康統計学

[ ホーム | 一覧 | 検索 | 最終更新 | ヘルプ ] [ 新規 | 編集 | 添付 ]

Top > 2009 > 4th > Regression

回帰 (regression)

データをもとに、ある変数（従属変数）を別の変数（独立変数）で予測する式を作るための統計的手法を、「回帰分析」（regression analysis）という。

とくに、独立変数が1つならば単回帰分析とよぶ。

回帰直線 (regression line)

回帰直線

散布図の各点 $\normalsize (x_i, y_i)$ が近くに分布するような直線を回帰直線という。
$y = ax + b$
- 回帰係数（回帰直線の傾き）： $\normalsize a$
- 回帰直線のy切片（x=0 のときのyの値）： $\normalsize b$
- 独立変数（説明変数：予測に使う変数）： $\normalsize x$
- 従属変数（目的変数、基準変数：予測したい変数）： $\normalsize y$

なお、回帰式は必ず $\normalsize (\bar{x}, \bar{y})$ を通る

最小二乗法

観測値（または実測値） $\normalsize y_i$ と推定値（または予測値） $\normalsize \hat{y}$ との差（残差 $\normalsize e$ ）の二乗が最小になるような $\normalsize a$ と $\normalsize b$ を求める。
- 次の値が最小となるような、aとbを求める。
  $\sum_{i=1}^n (y_i - \hat{y}_i)^2$
- $\normalsize e^2$ を足したものを、残差平方和 $\normalsize S_e$ という
  $S_e = \sum e^2 = \sum_{i=1}^n (y_i - \hat{y}_i)^2$

回帰式の計算

$\normalsize x$ を独立変数（横軸）、 $\normalsize y$ を従属変数（縦軸）としたときの回帰式（ $\normalsize y$ への $\normalsize x$ からの回帰式）は次のようになる。
$y = r \cdot \frac{s_y}{s_x} x + \left( \bar{y} - \frac{s_{xy} }{ {s_x}^2 } \cdot \bar{x} \right)$
- なお、
  $\begin{eqnarray}a &=& r \cdot \frac{s_y}{s_x} \\b &=& \bar{y} - \frac{s_{xy} }{ {s_x}^2 } \cdot \bar{x} = \bar{y} - \bar{x} a\end{eqnarray}$
- 相関係数: $\normalsize r$
- 2変数の標準偏差: $\normalsize s_x$ , $\normalsize s_y$
- 2変数の共分散（偏差積和の平均）
  $s_{xy} = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})$

回帰式を変形すると、次のようになる。
$\begin{eqnarray}y - \bar{y} &=& \frac{s_{xy} }{ {s_x}^2 } (x - \bar{x}) \\&=& \frac{ S_{xy} }{ S_{xx} } (x - \bar{x})\end{eqnarray}$
- 2変数の平均値: $\normalsize \bar{x}$ , $\normalsize \bar{y}$
- 2変数の偏差積和： $\normalsize S_{xy}$
  $\normalsize\displaystyle S_{xy} = \sum_{i=1}^n d_x \cdot d_y = \sum_{i=1}^n (x_i - \bar{x}) (y_i - \bar{y})$
- 偏差平方和： $\normalsize S_{xx}$
  $S_{xx} = \sum_{i=1}^n {d_x}^2 = \sum_{i=1}^n (x_i - \bar{x})^2$

標準誤差

予測値と実測値のずれ（予測値の誤差；残差 $\normalsize e$ ）の標準偏差を、標準誤差 $\normalsize s_e$ という
$\begin{eqnarray}s_e &=& \sqrt{ \frac{ \sum_{i=1}^{n} (y_i - \hat{y})^2 }{ n-2 } } \\&=& \sqrt{ \frac{ S_e }{ n-2 }\end{eqnarray}$
- n−2 で割っているのは、2つの係数を推定したことによる自由度（後日説明）の修正のため

決定係数

相関係数の二乗を決定係数（または寄与率）という。
- 決定係数: $\normalsize R^2$
  $\begin{eqnarray}R^2 &=& \left( \frac{1}{n} \frac{ S_{xy}^2 }{s_x s_y} \right)^2 \\&=& \frac{ S_{xy}^2 }{n^2 \cdot s_{x}^2 s_{y}^2 } \\&=& \frac{ S_{xy}^2 }{ \sum (x_i - \bar{x} )^2 \sum (y_i - \bar{y} )^2 } \\&=& \frac{ S_{xy}^2 }{S_{xx} S_{yy} }\end{eqnarray}$
偏差平方和と残差平方和を使うと、次のように書くこともできる
$\begin{eqnarray}R^2 &=& \frac{ S_{ \hat{y}\hat{y} } }{ S_{yy} } \\&=& \frac{ \sum (\hat{y}_i - \bar{ \hat{y} } )^2 }{ \sum (y_i - \bar{y} )^2 } \\&=& 1 - \frac{ S_e }{ S_{yy} }\end{eqnarray}$
決定係数は、0から1の値をとる。
$0 \leq R^2 \leq 1$
推定（回帰式）の精度を表す指標である
- 従属変数 $\normalsize y$ の分散の何％を予測値 $\normalsize \hat{y}$ の分散が説明しているか、を示す
- だいたい、0.5以上であれば精度が高いといえる

回帰の概念

予測値 $\normalsize \hat{y}$ と従属変数の平均 $\normalsize \bar{y}$ との差は、一般に独立変数 $\normalsize x$ とその平均 $\normalsize \bar{x}$ との差より小さくなる
→予測値と平均の差 $\normalsize ( \hat{y} - \bar{y})$ との差は、独立変数と平均の差 $\normalsize (x - \bar{x})$ との差より小さくなる
→予測値は独立変数に比べて平均に近づく
統計学的な現象で、「回帰効果」や「平均への回帰」ともいう
- 例）1回目の試験の結果が偏っていた（とくに良い、悪いなど）人について、2回目の試験結果を調べると、その平均値は1回目の結果よりも1回目の全体の平均値に近くなる（時間的には逆で考えてもよい）
- 例）父親と子どもの身長を比較して、とくに身長の高い父親でも、とくに身長の低い父親からでも、子どもたちの身長は父親たちの身長より平均に近くなる
- 例）とくに身長の高い人たちの父親の身長は、子どもたちの身長よりも平均に近い（全体の身長の分布は、父親たちも子どもたちも同じ）

メニュー

授業内容

ケータイで教員にメール

mkawano%40ed.hyogo-dai.ac.jp

今日の5件

最新の10件

2024-04-19

2024-04-12

2023-07-14

total: 1077
today: 1
yesterday: 0
now: 4

Last-modified: Tue, 11 Mar 2014 19:49:35 JST (3698d)