スポンサーリンク

決定係数と修正済み決定係数

スポンサーリンク
 
投稿計量経済学初級
計量経済学におけるOLSにおいて、モデルの当てはまりを見る決定係数と修正済み決定係数について、説明します。
スポンサーリンク
スポンサーリンク
スポンサーリンク

はじめに

 回帰分析で、モデルを推定したとき、実際の被説明変数の値と、モデルによる予測値がどれだけ同じか、それとも大きなずれがあるのかは、気になるところです。

 例えば、次のように、$k$個の説明変数からなる重回帰モデルがあるとします。

  $y_i = \alpha + \beta_1 x_{1i} + \cdots + \beta_k x_{ik} + e_i \quad (i = 1 \, , \, \cdots \, , \, n)$

 これをOLSで推定すると、定数項や係数$\beta_i$の推定量が得られ、それをもとに、被説明変数の予測値$\hat{y}_i$を求めることができます。

 そのとき、$y_i$と$\hat{y}_i$がどれだけ近い値が得られているのかを知りたいとき、一般的に使わるのが、決定係数です。

決定係数

 実際の被説明変数$y_i$と予測値$\hat{y}_i$について、偏差二乗和を計算し、その比がどうなっているかを見るのが、決定係数です。

 それぞれの偏差二乗和を$S_{yy} \, , \, S_{\hat{y}\hat{y}}$とし、決定係数を$R^2$とすると、

  $R^2 = \dfrac{S_{\hat{y}\hat{y}}}{S_{yy}}$

となります。2つの偏差二乗和が近い値をとれば1に近づき、そうでなければ0に近くなるので、

  $0 \leq R^2 \leq 1$

となります。

 すなわち、決定係数が1に近いほど、$y_i$と$\hat{y}_i$は近く、モデルは当てはまりがいいと言え、そうでなければ、モデルは当てはまりが悪いということになります。

修正済み決定係数

 決定係数は直観的には分かりやすいのですが、大きな問題があります。
 それは、説明変数を増やしていくと、決定係数は1に近づき、モデルの当てはまりは良くなることが知られています。

   なぜ、説明変数を増やすと、決定係数の値はよくなるのか(数式)

 それでは、決定係数は意味があるものとは言えないので、説明変数を増やすほど、罰則があり、決定係数が上がらないようなものとして考えられたのが、修正済み決定係数です。

 決定係数$R^2$は、

  $R^2 = \dfrac{S_{\hat{y}\hat{y}}}{S_{yy}} = 1 \; – \; \dfrac{\sum \hat{e}^2_i}{S_{yy}}$

ですが、修正済み決定係数$\bar{R^2}$は、

  $\bar{R^2} = 1 \; – \; \dfrac{n \; – \; 1}{n \; – \; (k+1)} \dfrac{\sum \hat{e}^2_i}{S_{yy}}$

となります。

 決定係数$R^2$と修正済み決定係数$\bar{R^2}$の違いは、

  $\dfrac{n \; – \; 1}{n \; – \; (k+1)}$

がついているかどうかです。この項は重回帰モデルなので、説明変数の数は2以上であり

  $(n \; – \; 1) \; – \; (n \; – \; (k+1)) = k > 1$

となることから、

  $\dfrac{n \; – \; 1}{n \; – \; (k+1)} > 1$

となっています。そして、式から分かるように、説明変数$k$を増やすと、この項は大きくなり、修正済み決定係数は小さくなります。

決定係数と修正済み決定係数の関係

 決定係数$R^2$と修正済み決定係数$\bar{R^2}$の2つの式から、

  $\bar{R^2} = \dfrac{(n \; – \; 1) R^2 \; – \; k}{n \; – \; (k+1)}$

となります。

【数値例】
 例えば、データ数が$31$で、説明変数が$6$、決定係数が$0.8$だったとします。
 このとき、修正済み決定係数は

  $\bar{R^2} = \dfrac{(31 \; – \; 1) \times 0.8 \; – \; 6}{31 \; – \; (6 +1)} = 0.75$

となります。

参考

  鹿野繁樹『新しい計量経済学

  羽森茂之『ベーシック計量経済学

スポンサーリンク
タイトルとURLをコピーしました