TITLE:回帰 *回帰 (regression) [#o7f971ab] データをもとに、ある変数(従属変数)を別の変数(独立変数)で 予測する式を作るための統計的手法を、 「''回帰分析''」(regression analysis)という。 -とくに、独立変数が1つならば''単回帰分析''とよぶ。 **回帰直線 (regression line) [#ref46612] ***回帰直線 [#r027a082] -散布図の各点 &mimetex(\normalsize (x_i, y_i)); が近くに分布するような直線を回帰直線という。 #mimetex(){{ y = ax + b }} --回帰係数(回帰直線の傾き):&mimetex(\normalsize a); --回帰直線のy切片('''x'''=0 のときのyの値):&mimetex(\normalsize b); --独立変数(または説明変数):&mimetex(\normalsize x); --従属変数(または基準変数):&mimetex(\normalsize y); --独立変数(説明変数:予測に使う変数):&mimetex(\normalsize x); --従属変数(目的変数、基準変数:予測したい変数):&mimetex(\normalsize y); -なお、回帰式は必ず &mimetex(\normalsize (\bar{x}, \bar{y})); を通る ***最小二乗法 [#ve4df718] -観測値(または実測値) &mimetex(\normalsize y_i); と 推定値(または予測値) &mimetex(\normalsize \hat{y}); との差(残差 &mimetex(\normalsize e); )の二乗が最小になるような &mimetex(\normalsize a); と &mimetex(\normalsize b); を求める。 --次の値が最小となるような、'''a'''と'''b'''を求める。 #mimetex(){{ \sum_{i=1}^n (y_i - \hat{y}_i)^2 }} --&mimetex(\normalsize e^2); を足したものを、残差平方和 &mimetex(\normalsize S_e); という #mimetex(){{ S_e = \sum e^2 = \sum_{i=1}^n (y_i - \hat{y}_i)^2 }} **回帰式の計算 [#vc65a5ea] &mimetex(\normalsize x); を独立変数(横軸)、 &mimetex(\normalsize y); を従属変数(縦軸)としたときの回帰式は次のようになる。 -&mimetex(\normalsize x); を独立変数(横軸)、 &mimetex(\normalsize y); を従属変数(縦軸)としたときの回帰式( &mimetex(\normalsize y); への &mimetex(\normalsize x); からの回帰式)は次のようになる。 #mimetex(){{ y = r \cdot \frac{s_y}{s_x} x + \left( \bar{y} - \frac{s_{xy} }{s_x^2} \cdot \bar{x} \right) y = r \cdot \frac{s_y}{s_x} x + \left( \bar{y} - \frac{s_{xy} }{ {s_x}^2 } \cdot \bar{x} \right) }} なお、 --なお、 #mimetex(){{ \begin{eqnarray} a &=& r \cdot \frac{s_y}{s_x} \\ b &=& \bar{y} - \frac{s_{xy} }{s_x^2} \cdot \bar{x} = \bar{y} - \bar{x} a b &=& \bar{y} - \frac{s_{xy} }{ {s_x}^2 } \cdot \bar{x} = \bar{y} - \bar{x} a \end{eqnarray} }} --相関係数: &mimetex(\normalsize r); --2変数の標準偏差: &mimetex(\normalsize s_x); , &mimetex(\normalsize s_y); --2変数の共分散(偏差積和の平均) #mimetex(){{ s_{xy} = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y}) }} 回帰式を変形すると、次のようになる。 -回帰式を変形すると、次のようになる。 #mimetex(){{ y - \bar{y} = \frac{s_{xy} }{s_x^2} (x - \bar{x}) \begin{eqnarray} y - \bar{y} &=& \frac{s_{xy} }{ {s_x}^2 } (x - \bar{x}) \\ &=& \frac{ S_{xy} }{ S_{xx} } (x - \bar{x}) \end{eqnarray} }} --2変数の平均値: &mimetex(\normalsize \bar{x}); , &mimetex(\normalsize \bar{y}); --2変数の偏差積和:&mimetex(\normalsize S_{xy}); #mimetex(){{ \normalsize\displaystyle S_{xy} = \sum_{i=1}^n d_x \cdot d_y = \sum_{i=1}^n (x_i - \bar{x}) (y_i - \bar{y}) }} --偏差平方和:&mimetex(\normalsize S_{xx}); #mimetex(){{ S_{xx} = \sum_{i=1}^n {d_x}^2 = \sum_{i=1}^n (x_i - \bar{x})^2 }} **標準誤差 [#a7ccecca] -予測値と実測値のずれ(予測値の誤差)の標準偏差を、標準誤差という -予測値と実測値のずれ(予測値の誤差;残差 &mimetex(\normalsize e); )の標準偏差を、標準誤差 &mimetex(\normalsize s_e); という #mimetex(){{ \sqrt{ \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y})^2 } \\ \begin{eqnarray} s_e &=& \sqrt{ \frac{ \sum_{i=1}^{n} (y_i - \hat{y})^2 }{ n-2 } } \\ &=& \sqrt{ \frac{ S_e }{ n-2 } \end{eqnarray} }} --n−2 で割っているのは、2つの係数を推定したことによる自由度(後日説明)の修正のため **決定係数 [#r5cbda2c] -相関係数の二乗を決定係数(または寄与率)という。 --決定係数: &mimetex(\normalsize r^2); --決定係数: &mimetex(\normalsize R^2); #mimetex(){{ \begin{eqnarray} R^2 &=& \left( \frac{1}{n} \frac{ S_{xy}^2 }{s_x s_y} \right)^2 \\ &=& \frac{ S_{xy}^2 }{n^2 \cdot s_{x}^2 s_{y}^2 } \\ &=& \frac{ S_{xy}^2 }{ \sum (x_i - \bar{x} )^2 \sum (y_i - \bar{y} )^2 } \\ &=& \frac{ S_{xy}^2 }{S_{xx} S_{yy} } \end{eqnarray} }} -偏差平方和と残差平方和を使うと、次のように書くこともできる #mimetex(){{ \begin{eqnarray} R^2 &=& \frac{ S_{ \hat{y}\hat{y} } }{ S_{yy} } \\ &=& \frac{ \sum (\hat{y}_i - \bar{ \hat{y} } )^2 }{ \sum (y_i - \bar{y} )^2 } \\ &=& 1 - \frac{ S_e }{ S_{yy} } \end{eqnarray} }} -決定係数は、0から1の値をとる。 #mimetex(){{ 0 \leq r^2 \leq 1 0 \leq R^2 \leq 1 }} -推定(回帰式)の精度を表す指標である --従属変数 &mimetex(\normalsize y); の分散の何%を推定値 &mimetex(\normalsize \hat{y}); の分散が説明しているか、を示す --従属変数 &mimetex(\normalsize y); の分散の何%を予測値 &mimetex(\normalsize \hat{y}); の分散が説明しているか、を示す --だいたい、0.5以上であれば精度が高いといえる **回帰の概念 [#j38548d8] -予測値 &mimetex(\normalsize \hat{y}); と従属変数の平均 &mimetex(\normalsize \bar{y}); との差は、一般に独立変数 &mimetex(\normalsize x); とその平均 &mimetex(\normalsize \bar{x}); との差より小さくなる&br; →予測値と平均の差 &mimetex(\normalsize ( \hat{y} - \bar{y}) ); との差は、独立変数と平均の差 &mimetex(\normalsize (x - \bar{x}) ); との差より小さくなる&br; →予測値は独立変数に比べて平均に近づく -統計学的な現象で、「回帰効果」や「平均への回帰」ともいう --例)1回目の試験の結果が偏っていた(とくに良い、悪いなど)人について、2回目の試験結果を調べると、その平均値は1回目の結果よりも1回目の全体の平均値に近くなる(時間的には逆で考えてもよい) --例)父親と子どもの身長を比較して、とくに身長の高い父親でも、とくに身長の低い父親からでも、子どもたちの身長は父親たちの身長より平均に近くなる --例)とくに身長の高い人たちの父親の身長は、子どもたちの身長よりも平均に近い(全体の身長の分布は、父親たちも子どもたちも同じ) |