2009/4th/Regression のバックアップの現在との差分(No.4)

バックアップ一覧
差分を表示
現在との差分 - Visual を表示
ソースを表示
バックアップを表示
2009/4th/Regression へ行く。
- 1 (2009-04-23 (木) 13:12:11)
- 2 (2009-04-29 (水) 03:46:35)
- 3 (2009-04-29 (水) 04:48:39)
- 4 (2009-04-29 (水) 06:24:56)
- 5 (2009-05-01 (金) 02:24:14)
- 6 (2009-05-01 (金) 04:52:55)
- 7 (2009-05-01 (金) 06:29:21)

追加された行はこの色です。
削除された行はこの色です。

TITLE:回帰
*回帰 (regression) [#o7f971ab]

データをもとに、ある変数（従属変数）を別の変数（独立変数）で
予測する式を作るための統計的手法を、
「''回帰分析''」（regression analysis）という。
-とくに、独立変数が1つならば''単回帰分析''とよぶ。


**回帰直線 (regression line) [#ref46612]

***回帰直線 [#r027a082]
-散布図の各点 &mimetex(\normalsize (x_i, y_i)); が近くに分布するような直線を回帰直線という。
#mimetex(){{
y = ax + b
}}
--回帰係数（回帰直線の傾き）：&mimetex(\normalsize a); 
--回帰直線のy切片（'''x'''=0 のときのyの値）：&mimetex(\normalsize b); 
--独立変数（または説明変数）：&mimetex(\normalsize x);
--従属変数（または基準変数）：&mimetex(\normalsize y);
--独立変数（説明変数：予測に使う変数）：&mimetex(\normalsize x);
--従属変数（目的変数、基準変数：予測したい変数）：&mimetex(\normalsize y);

-なお、回帰式は必ず &mimetex(\normalsize (\bar{x}, \bar{y})); を通る

***最小二乗法 [#ve4df718]
-観測値（または実測値） &mimetex(\normalsize y_i); と 推定値（または予測値） &mimetex(\normalsize \hat{y}); との差（残差 &mimetex(\normalsize e); ）の二乗が最小になるような &mimetex(\normalsize a); と &mimetex(\normalsize b);  を求める。
--次の値が最小となるような、'''a'''と'''b'''を求める。
#mimetex(){{
\sum_{i=1}^n (y_i - \hat{y}_i)^2
}}
--&mimetex(\normalsize e^2); を足したものを、残差平方和 &mimetex(\normalsize S_e); という 
#mimetex(){{
S_e = \sum e^2 = \sum_{i=1}^n (y_i - \hat{y}_i)^2
}}



**回帰式の計算 [#vc65a5ea]
&mimetex(\normalsize x); を独立変数（横軸）、
&mimetex(\normalsize y); を従属変数（縦軸）としたときの回帰式は次のようになる。


-&mimetex(\normalsize x); を独立変数（横軸）、
&mimetex(\normalsize y); を従属変数（縦軸）としたときの回帰式（ &mimetex(\normalsize y); への &mimetex(\normalsize x); からの回帰式）は次のようになる。
#mimetex(){{
y = r \cdot \frac{s_y}{s_x} x + \left( \bar{y} - \frac{s_{xy} }{s_x^2} \cdot \bar{x} \right)
y = r \cdot \frac{s_y}{s_x} x + \left( \bar{y} - \frac{s_{xy} }{ {s_x}^2 } \cdot \bar{x} \right)
}}

なお、
--なお、
#mimetex(){{
\begin{eqnarray}
a &=& r \cdot \frac{s_y}{s_x} \\
b &=& \bar{y} - \frac{s_{xy} }{s_x^2} \cdot \bar{x} = \bar{y} - \bar{x} a
b &=& \bar{y} - \frac{s_{xy} }{ {s_x}^2 } \cdot \bar{x} = \bar{y} - \bar{x} a
\end{eqnarray}
}}
--相関係数: &mimetex(\normalsize r); 
--2変数の標準偏差: &mimetex(\normalsize s_x); , &mimetex(\normalsize s_y); 
--2変数の共分散（偏差積和の平均）
#mimetex(){{
s_{xy} = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})
}}

回帰式を変形すると、次のようになる。
-回帰式を変形すると、次のようになる。
#mimetex(){{
y - \bar{y} = \frac{s_{xy} }{s_x^2} (x - \bar{x})
\begin{eqnarray}
y - \bar{y} &=& \frac{s_{xy} }{ {s_x}^2 } (x - \bar{x}) \\
&=& \frac{ S_{xy} }{ S_{xx} } (x - \bar{x})
\end{eqnarray}
}}
--2変数の平均値: &mimetex(\normalsize \bar{x}); , &mimetex(\normalsize \bar{y}); 
--2変数の偏差積和：&mimetex(\normalsize S_{xy});
#mimetex(){{
\normalsize\displaystyle S_{xy} = \sum_{i=1}^n d_x \cdot d_y = \sum_{i=1}^n (x_i - \bar{x}) (y_i - \bar{y})
}} 
--偏差平方和：&mimetex(\normalsize S_{xx});
#mimetex(){{
S_{xx} = \sum_{i=1}^n {d_x}^2 = \sum_{i=1}^n (x_i - \bar{x})^2
}} 


**標準誤差 [#a7ccecca]
-予測値と実測値のずれ（予測値の誤差）の標準偏差を、標準誤差という
-予測値と実測値のずれ（予測値の誤差；残差 &mimetex(\normalsize e); ）の標準偏差を、標準誤差 &mimetex(\normalsize s_e); という
#mimetex(){{
\sqrt{ \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y})^2 } \\
\begin{eqnarray}
s_e &=& \sqrt{ \frac{ \sum_{i=1}^{n} (y_i - \hat{y})^2 }{ n-2 } } \\
&=& \sqrt{ \frac{ S_e }{ n-2 }
\end{eqnarray}
}}
--n&#8722;2 で割っているのは、2つの係数を推定したことによる自由度（後日説明）の修正のため

**決定係数 [#r5cbda2c]
-相関係数の二乗を決定係数（または寄与率）という。
--決定係数: &mimetex(\normalsize r^2);
--決定係数: &mimetex(\normalsize R^2);
#mimetex(){{
\begin{eqnarray}
R^2 &=& \left( \frac{1}{n} \frac{ S_{xy}^2 }{s_x s_y} \right)^2 \\
&=& \frac{ S_{xy}^2 }{n^2 \cdot s_{x}^2 s_{y}^2 } \\
&=& \frac{ S_{xy}^2 }{ \sum (x_i - \bar{x} )^2 \sum (y_i - \bar{y} )^2 } \\
&=& \frac{ S_{xy}^2 }{S_{xx} S_{yy} }
\end{eqnarray}
}}
-偏差平方和と残差平方和を使うと、次のように書くこともできる
#mimetex(){{
\begin{eqnarray}
R^2 &=& \frac{ S_{ \hat{y}\hat{y} } }{ S_{yy} } \\
&=& \frac{ \sum (\hat{y}_i - \bar{ \hat{y} } )^2 }{ \sum (y_i - \bar{y} )^2 } \\
&=& 1 - \frac{ S_e }{ S_{yy} }
\end{eqnarray}
}}
-決定係数は、0から1の値をとる。
#mimetex(){{
0 \leq r^2 \leq 1
0 \leq R^2 \leq 1
}}
-推定（回帰式）の精度を表す指標である
--従属変数 &mimetex(\normalsize y); の分散の何％を推定値 &mimetex(\normalsize \hat{y}); の分散が説明しているか、を示す
--従属変数 &mimetex(\normalsize y); の分散の何％を予測値 &mimetex(\normalsize \hat{y}); の分散が説明しているか、を示す
--だいたい、0.5以上であれば精度が高いといえる


**回帰の概念 [#j38548d8]
-予測値 &mimetex(\normalsize \hat{y}); と従属変数の平均  &mimetex(\normalsize \bar{y}); との差は、一般に独立変数  &mimetex(\normalsize x); とその平均 &mimetex(\normalsize \bar{x}); との差より小さくなる&br;
→予測値と平均の差 &mimetex(\normalsize ( \hat{y} - \bar{y}) ); との差は、独立変数と平均の差 &mimetex(\normalsize (x - \bar{x}) ); との差より小さくなる&br;
→予測値は独立変数に比べて平均に近づく
-統計学的な現象で、「回帰効果」や「平均への回帰」ともいう
--例）1回目の試験の結果が偏っていた（とくに良い、悪いなど）人について、2回目の試験結果を調べると、その平均値は1回目の結果よりも1回目の全体の平均値に近くなる（時間的には逆で考えてもよい）
--例）父親と子どもの身長を比較して、とくに身長の高い父親でも、とくに身長の低い父親からでも、子どもたちの身長は父親たちの身長より平均に近くなる
--例）とくに身長の高い人たちの父親の身長は、子どもたちの身長よりも平均に近い（全体の身長の分布は、父親たちも子どもたちも同じ）

メニュー

授業内容

ケータイで教員にメール

健康統計の基礎・健康統計学 - 2009/4th/Regression のバックアップの現在との差分(No.4)

メニュー

授業内容

ケータイで教員にメール

今日の5件

最新の10件