はじめに
回帰分析で、モデルを推定したとき、実際の被説明変数の値と、モデルによる予測値がどれだけ同じか、それとも大きなずれがあるのかは、気になるところです。
例えば、次のように、$k$個の説明変数からなる重回帰モデルがあるとします。
$y_i = \alpha + \beta_1 x_{1i} + \cdots + \beta_k x_{ik} + e_i \quad (i = 1 \, , \, \cdots \, , \, n)$
これをOLSで推定すると、定数項や係数$\beta_i$の推定量が得られ、それをもとに、被説明変数の予測値$\hat{y}_i$を求めることができます。
そのとき、$y_i$と$\hat{y}_i$がどれだけ近い値が得られているのかを知りたいとき、一般的に使わるのが、決定係数です。
決定係数
実際の被説明変数$y_i$と予測値$\hat{y}_i$について、偏差二乗和を計算し、その比がどうなっているかを見るのが、決定係数です。
それぞれの偏差二乗和を$S_{yy} \, , \, S_{\hat{y}\hat{y}}$とし、決定係数を$R^2$とすると、
$R^2 = \dfrac{S_{\hat{y}\hat{y}}}{S_{yy}}$
となります。2つの偏差二乗和が近い値をとれば1に近づき、そうでなければ0に近くなるので、
$0 \leq R^2 \leq 1$
となります。
すなわち、決定係数が1に近いほど、$y_i$と$\hat{y}_i$は近く、モデルは当てはまりがいいと言え、そうでなければ、モデルは当てはまりが悪いということになります。
修正済み決定係数
決定係数は直観的には分かりやすいのですが、大きな問題があります。
それは、説明変数を増やしていくと、決定係数は1に近づき、モデルの当てはまりは良くなることが知られています。
なぜ、説明変数を増やすと、決定係数の値はよくなるのか(数式)
それでは、決定係数は意味があるものとは言えないので、説明変数を増やすほど、罰則があり、決定係数が上がらないようなものとして考えられたのが、修正済み決定係数です。
決定係数$R^2$は、
$R^2 = \dfrac{S_{\hat{y}\hat{y}}}{S_{yy}} = 1 \; – \; \dfrac{\sum \hat{e}^2_i}{S_{yy}}$
ですが、修正済み決定係数$\bar{R^2}$は、
$\bar{R^2} = 1 \; – \; \dfrac{n \; – \; 1}{n \; – \; (k+1)} \dfrac{\sum \hat{e}^2_i}{S_{yy}}$
となります。
決定係数$R^2$と修正済み決定係数$\bar{R^2}$の違いは、
$\dfrac{n \; – \; 1}{n \; – \; (k+1)}$
がついているかどうかです。この項は重回帰モデルなので、説明変数の数は2以上であり
$(n \; – \; 1) \; – \; (n \; – \; (k+1)) = k > 1$
となることから、
$\dfrac{n \; – \; 1}{n \; – \; (k+1)} > 1$
となっています。そして、式から分かるように、説明変数$k$を増やすと、この項は大きくなり、修正済み決定係数は小さくなります。
決定係数と修正済み決定係数の関係
決定係数$R^2$と修正済み決定係数$\bar{R^2}$の2つの式から、
$\bar{R^2} = \dfrac{(n \; – \; 1) R^2 \; – \; k}{n \; – \; (k+1)}$
となります。
【数値例】
例えば、データ数が$31$で、説明変数が$6$、決定係数が$0.8$だったとします。
このとき、修正済み決定係数は
$\bar{R^2} = \dfrac{(31 \; – \; 1) \times 0.8 \; – \; 6}{31 \; – \; (6 +1)} = 0.75$
となります。
参考
鹿野繁樹『新しい計量経済学』
羽森茂之『ベーシック計量経済学』